15. Logistische Regression

Logistische Regression: Eine Einführung

Einführung

Die logistische Regression ist ein statistisches Verfahren, das häufig in der Datenanalyse und im maschinellen Lernen eingesetzt wird, um die Wahrscheinlichkeit eines binären Ergebnisses basierend auf einer oder mehreren unabhängigen Variablen zu modellieren. Im Gegensatz zur linearen Regression, die kontinuierliche Zielvariablen vorhersagt, ist die logistische Regression darauf spezialisiert, Ergebnisse zu klassifizieren, was sie zu einem unverzichtbaren Werkzeug für Aufgaben wie Kreditwürdigkeitsprüfungen, medizinische Diagnosen und Marketingkampagnen macht.

Anwendung

Die logistische Regression wird in vielen Bereichen eingesetzt, um binäre Klassifizierungsprobleme zu lösen. Typische Anwendungsfelder sind:

  • Medizinische Diagnostik: Vorhersage, ob ein Patient eine bestimmte Krankheit hat (z. B. Diabetes ja/nein).
  • Finanzwesen: Einschätzung der Wahrscheinlichkeit eines Kreditausfalls.
  • Marketing: Vorhersage, ob ein Kunde auf eine Werbekampagne reagiert (z. B. Kauf ja/nein).
  • Sozialwissenschaften: Analyse von Umfragedaten, um die Wahrscheinlichkeit bestimmter Antworten zu untersuchen.

Aufbau / Bestandteile

Die logistische Regression basiert auf der logistischen Funktion, die die lineare Kombination der Eingangsvariablen transformiert, um Wahrscheinlichkeiten zu schätzen. Die zentrale Formel lautet:

Hierbei sind:

  • die Wahrscheinlichkeit, dass das Ergebnis 1 ist, gegeben die Eingangsvariablen .
  • die Koeffizienten, die während des Trainingsprozesses geschätzt werden.

Interpretation

Die Koeffizienten der logistischen Regression geben die Veränderung der Log-Odds für eine Einheit Veränderung der Prädiktorvariablen an. Ein positiver Koeffizient bedeutet, dass die Wahrscheinlichkeit des Ergebnisses 1 mit der Zunahme der Prädiktorvariablen steigt, während ein negativer Koeffizient das Gegenteil anzeigt. Die Güte des Modells kann durch Kennzahlen wie die Genauigkeit, die Präzision, den Recall und den F1-Score bewertet werden.

Praxisbeispiel

Betrachten wir ein einfaches Beispiel in Python, um die Wahrscheinlichkeit vorherzusagen, ob ein Student eine Prüfung besteht, basierend auf der Anzahl der Lernstunden:

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
 
# Beispiel-Daten
data = {'Studienstunden': [5, 10, 15, 20, 25],
        'Bestanden': [0, 0, 1, 1, 1]}
df = pd.DataFrame(data)
 
# Daten aufteilen
X = df[['Studienstunden']]
y = df['Bestanden']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
 
# Modell trainieren
model = LogisticRegression()
model.fit(X_train, y_train)
 
# Vorhersagen und Genauigkeit
predictions = model.predict(X_test)
accuracy = accuracy_score(y_test, predictions)
print(f'Genauigkeit: {accuracy:.2f}')

Erweiterungen

Neben der binären logistischen Regression gibt es Erweiterungen wie die multinomiale logistische Regression, die für mehr als zwei Klassen verwendet wird, und die ordinale logistische Regression, die für geordnete Kategorien geeignet ist. Auch Regularisierungstechniken wie L1 (Lasso) und L2 (Ridge) werden oft eingesetzt, um Überanpassung zu vermeiden.

Fazit

Die logistische Regression ist ein leistungsfähiges Werkzeug zur Modellierung binärer Ergebnisse und wird in vielen Bereichen erfolgreich eingesetzt. Sie bietet eine klare Interpretation der Koeffizienten und kann durch Erweiterungen und Regularisierungstechniken an komplexere Aufgaben angepasst werden. Für Anwender ist es wichtig, die Annahmen und Grenzen der logistischen Regression zu verstehen, um verlässliche Vorhersagen zu treffen.

Weiterführende Literatur

  • Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning. Springer.
  • James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning. Springer.

Diese Ressourcen bieten tiefere Einblicke in die Theorie und Praxis der logistischen Regression und verwandter Methoden.