Woche 3-4: Das multiple lineare Regressionsmodell

Ziel

Verständnis und Anwendung des multiplen linearen Regressionsmodells mit mehreren Prädiktoren.

Inhalte

Erweiterung des einfachen Modells auf mehrere Prädiktoren

Das multiple lineare Regressionsmodell erweitert das einfache lineare Regressionsmodell, indem es mehrere unabhängige Variablen (Prädiktoren) berücksichtigt, um die abhängige Variable zu erklären.

Allgemeine Form des multiplen linearen Regressionsmodells

  • : abhängige Variable
  • : unabhängige Variablen
  • : Achsenabschnitt
  • : Regressionskoeffizienten
  • : Fehlerterm

Interpretation der Regressionskoeffizienten

Jeder Regressionskoeffizient gibt den durchschnittlichen Effekt der unabhängigen Variable auf die abhängige Variable an, wobei die anderen unabhängigen Variablen konstant gehalten werden.

  • : Erwartungswert von , wenn alle gleich Null sind.
  • : Veränderung von bei einer Einheit Veränderung von , ceteris paribus.

Multikollinearität: Ursachen, Erkennung und Umgang

Multikollinearität tritt auf, wenn zwei oder mehr Prädiktoren stark korreliert sind, was die Schätzung der Regressionskoeffizienten ungenau macht.

Ursachen

  • Starke lineare Beziehungen zwischen Prädiktoren.
  • Daten, die ähnliche Informationen enthalten.

Erkennung

  • Variance Inflation Factor (VIF): Misst, wie stark die Varianz eines geschätzten Regressionskoeffizienten aufgrund der Multikollinearität erhöht ist.
    • : Bestimmtheitsmaß des Modells, bei dem durch die anderen Prädiktoren vorhergesagt wird.
    • Ein größer als 10 deutet auf problematische Multikollinearität hin.

Umgang

  • Entfernen oder Zusammenfassen hoch korrelierter Prädiktoren.
  • Verwendung von Techniken wie Ridge-Regression oder Hauptkomponentenanalyse (PCA).

Gütekriterien (Adjusted , AIC, BIC)

Adjusted

Berücksichtigt die Anzahl der Prädiktoren und passt das entsprechend an:

  • : Anzahl der Beobachtungen
  • : Anzahl der Prädiktoren

Akaike-Informationskriterium (AIC)

Misst die Modellgüte unter Berücksichtigung der Modellkomplexität:

  • : Anzahl der Parameter im Modell
  • : Likelihood des Modells

Bayessches Informationskriterium (BIC)

Ähnlich wie das AIC, bestraft jedoch komplexere Modelle stärker:

  • : Anzahl der Beobachtungen

Interaktionseffekte und nichtlineare Beziehungen

Interaktionseffekte

Untersuchen, ob die Wirkung eines Prädiktors auf die abhängige Variable von einem anderen Prädiktor abhängt:

Nichtlineare Beziehungen

Erweiterung des Modells um nichtlineare Terme wie Quadrate oder Kubikterme:

Übungen

Durchführung einer multiplen linearen Regression

Beispiel in R

# Daten laden und visualisieren
data <- read.csv("data.csv")
pairs(data)
 
# Multiple lineare Regression durchführen
model <- lm(Y ~ X1 + X2 + X3, data = data)
summary(model)
 
# Residualanalyse
par(mfrow=c(2,2))
plot(model)

Beispiel in Python

import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
 
# Daten laden und visualisieren
data = pd.read_csv("data.csv")
pd.plotting.scatter_matrix(data)
plt.show()
 
# Multiple lineare Regression durchführen
X = data[['X1', 'X2', 'X3']]
X = sm.add_constant(X)
model = sm.OLS(data['Y'], X).fit()
print(model.summary())
 
# Residualanalyse
fig, ax = plt.subplots(2, 2, figsize=(12, 8))
sm.graphics.plot_regress_exog(model, 'X1', fig=fig)
plt.show()

Untersuchung und Interpretation von Interaktionseffekten

Beispiel in R

# Interaktionsmodell
interaction_model <- lm(Y ~ X1 * X2, data = data)
summary(interaction_model)

Beispiel in Python

# Interaktionsmodell
data['X1_X2'] = data['X1'] * data['X2']
X_interaction = sm.add_constant(data[['X1', 'X2', 'X1_X2']])
interaction_model = sm.OLS(data['Y'], X_interaction).fit()
print(interaction_model.summary())

Umgang mit Multikollinearität (VIF-Berechnung)

Beispiel in R

library(car)
vif(model)

Beispiel in Python

from statsmodels.stats.outliers_influence import variance_inflation_factor
 
# VIF-Berechnung
vif_data = pd.DataFrame()
vif_data["feature"] = X.columns
vif_data["VIF"] = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]
print(vif_data)

Dieses ausführliche Skript gibt Ihnen eine fundierte Einführung in das multiple lineare Regressionsmodell, einschließlich theoretischer Grundlagen, praktischer Beispiele und Übungen zur Vertiefung Ihres Verständnisses und Ihrer Fähigkeiten in der Anwendung und Interpretation der Ergebnisse.