Woche 3-4: Das multiple lineare Regressionsmodell
Ziel
Verständnis und Anwendung des multiplen linearen Regressionsmodells mit mehreren Prädiktoren.
Inhalte
Erweiterung des einfachen Modells auf mehrere Prädiktoren
Das multiple lineare Regressionsmodell erweitert das einfache lineare Regressionsmodell, indem es mehrere unabhängige Variablen (Prädiktoren) berücksichtigt, um die abhängige Variable zu erklären.
Allgemeine Form des multiplen linearen Regressionsmodells
- : abhängige Variable
- : unabhängige Variablen
- : Achsenabschnitt
- : Regressionskoeffizienten
- : Fehlerterm
Interpretation der Regressionskoeffizienten
Jeder Regressionskoeffizient gibt den durchschnittlichen Effekt der unabhängigen Variable auf die abhängige Variable an, wobei die anderen unabhängigen Variablen konstant gehalten werden.
- : Erwartungswert von , wenn alle gleich Null sind.
- : Veränderung von bei einer Einheit Veränderung von , ceteris paribus.
Multikollinearität: Ursachen, Erkennung und Umgang
Multikollinearität tritt auf, wenn zwei oder mehr Prädiktoren stark korreliert sind, was die Schätzung der Regressionskoeffizienten ungenau macht.
Ursachen
- Starke lineare Beziehungen zwischen Prädiktoren.
- Daten, die ähnliche Informationen enthalten.
Erkennung
- Variance Inflation Factor (VIF): Misst, wie stark die Varianz eines geschätzten Regressionskoeffizienten aufgrund der Multikollinearität erhöht ist.
- : Bestimmtheitsmaß des Modells, bei dem durch die anderen Prädiktoren vorhergesagt wird.
- Ein größer als 10 deutet auf problematische Multikollinearität hin.
Umgang
- Entfernen oder Zusammenfassen hoch korrelierter Prädiktoren.
- Verwendung von Techniken wie Ridge-Regression oder Hauptkomponentenanalyse (PCA).
Gütekriterien (Adjusted , AIC, BIC)
Adjusted
Berücksichtigt die Anzahl der Prädiktoren und passt das entsprechend an:
- : Anzahl der Beobachtungen
- : Anzahl der Prädiktoren
Akaike-Informationskriterium (AIC)
Misst die Modellgüte unter Berücksichtigung der Modellkomplexität:
- : Anzahl der Parameter im Modell
- : Likelihood des Modells
Bayessches Informationskriterium (BIC)
Ähnlich wie das AIC, bestraft jedoch komplexere Modelle stärker:
- : Anzahl der Beobachtungen
Interaktionseffekte und nichtlineare Beziehungen
Interaktionseffekte
Untersuchen, ob die Wirkung eines Prädiktors auf die abhängige Variable von einem anderen Prädiktor abhängt:
Nichtlineare Beziehungen
Erweiterung des Modells um nichtlineare Terme wie Quadrate oder Kubikterme:
Übungen
Durchführung einer multiplen linearen Regression
Beispiel in R
Beispiel in Python
Untersuchung und Interpretation von Interaktionseffekten
Beispiel in R
Beispiel in Python
Umgang mit Multikollinearität (VIF-Berechnung)
Beispiel in R
Beispiel in Python
Dieses ausführliche Skript gibt Ihnen eine fundierte Einführung in das multiple lineare Regressionsmodell, einschließlich theoretischer Grundlagen, praktischer Beispiele und Übungen zur Vertiefung Ihres Verständnisses und Ihrer Fähigkeiten in der Anwendung und Interpretation der Ergebnisse.