Woche 15-16: Das gemischte lineare Regressionsmodell

Ziel

Vertiefung des Verständnisses und der Anwendung gemischter linearer Modelle.

Inhalte

Theorie und Anwendung gemischter linearer Modelle

Gemischte lineare Modelle (GLMs) sind eine Erweiterung der einfachen linearen Modelle, die sowohl feste als auch zufällige Effekte berücksichtigen. Diese Modelle sind besonders nützlich für Daten, die hierarchische oder verschachtelte Strukturen aufweisen, wie z.B. Daten aus wiederholten Messungen, Längsschnittstudien oder verschachtelten Designs.

Allgemeine Form des gemischten linearen Modells

Das gemischte lineare Modell kann wie folgt geschrieben werden:

  • : Vektor der abhängigen Variablen
  • : Designmatrix der festen Effekte
  • : Vektor der festen Effekte
  • : Designmatrix der zufälligen Effekte
  • : Vektor der zufälligen Effekte
  • : Vektor der Residuen

Feste und zufällige Effekte

  • Feste Effekte (): Diese Effekte sind konstant und betreffen alle Beobachtungen gleichermaßen. Sie sind von direktem Interesse in der Analyse.
  • Zufällige Effekte (): Diese Effekte variieren zwischen den Gruppen und repräsentieren die Zufallsstichprobe aus einer größeren Population. Sie ermöglichen es, die Heterogenität in den Daten zu modellieren.

Modellformulierung und Schätzung

Modellformulierung

Die Formulierung eines gemischten linearen Modells beginnt mit der Definition der festen und zufälligen Effekte. Zum Beispiel, wenn wir den Einfluss von Training auf die Leistung von Schülern untersuchen und die Schüler in verschiedenen Klassen sind, könnten wir das folgende Modell formulieren:

  • : Leistung des Schülers in Klasse
  • : Interzept (fester Effekt)
  • : Koeffizient für Training (fester Effekt)
  • : Zufälliger Effekt der Klasse
  • : Residuum für Schüler in Klasse

Schätzung der Parameter

Die Parameter der gemischten Modelle werden in der Regel durch die Methode der maximalen Likelihood (ML) oder die Restricted Maximum Likelihood (REML) geschätzt. REML wird oft bevorzugt, da es unverzerrte Schätzungen der Varianzkomponenten liefert.

Modellvergleich und -bewertung

Vergleich von Modellen

Modelle können anhand von Informationskriterien wie dem Akaike-Informationskriterium (AIC) oder dem Bayesschen Informationskriterium (BIC) verglichen werden. Ein Modell mit einem niedrigeren AIC- oder BIC-Wert wird bevorzugt.

  • : Anzahl der Parameter im Modell
  • : Likelihood des Modells
  • : Anzahl der Beobachtungen

Bewertung der Modellgüte

Die Modellgüte kann auch durch das Bestimmtheitsmaß () und durch Residualanalysen bewertet werden.

Anwendung in Längsschnitt- und Paneldaten

Gemischte Modelle sind besonders nützlich für die Analyse von Längsschnitt- und Paneldaten, bei denen die gleichen Einheiten über mehrere Zeitpunkte hinweg beobachtet werden. Diese Modelle ermöglichen es, sowohl die zeitliche Abhängigkeit innerhalb der Einheiten als auch die Heterogenität zwischen den Einheiten zu berücksichtigen.

Beispiel: Analyse von Längsschnittdaten

Angenommen, wir untersuchen den Einfluss von Alter und Geschlecht auf das Einkommen über mehrere Jahre hinweg. Dabei beobachten wir dieselben Personen zu verschiedenen Zeitpunkten.

  • : Einkommen der Person zum Zeitpunkt
  • : Interzept (fester Effekt)
  • : Koeffizient für Alter (fester Effekt)
  • : Koeffizient für Geschlecht (fester Effekt)
  • : Zufälliger Effekt der Person
  • : Residuum für Person zum Zeitpunkt

Übungen

Durchführung gemischter Modelle mit Softwareunterstützung

Beispiel in R:

# Paket laden
library(lme4)
 
# Daten laden
data <- read.csv("laengsschnittdaten.csv")
 
# Gemischtes Modell erstellen
model <- lmer(Einkommen ~ Alter + Geschlecht + (1|Person), data = data)
 
# Zusammenfassung des Modells anzeigen
summary(model)

Beispiel in Python:

import pandas as pd
import statsmodels.api as sm
from statsmodels.regression.mixed_linear_model import MixedLM
 
# Daten laden
data = pd.read_csv("laengsschnittdaten.csv")
 
# Gemischtes Modell erstellen
model = MixedLM.from_formula("Einkommen ~ Alter + Geschlecht", data, groups=data["Person"])
result = model.fit()
 
# Zusammenfassung des Modells anzeigen
print(result.summary())

Vergleich verschiedener Modellansätze und Interpretation der Ergebnisse

  1. Modell mit festen Effekten:

Beispiel in R:

# Modell mit festen Effekten
fixed_model <- lm(Einkommen ~ Alter + Geschlecht, data = data)
summary(fixed_model)

Beispiel in Python:

# Modell mit festen Effekten
X = data[['Alter', 'Geschlecht']]
X = sm.add_constant(X)
fixed_model = sm.OLS(data['Einkommen'], X).fit()
print(fixed_model.summary())
  1. Modell mit zufälligen Effekten:

Beispiel in R:

# Modell mit zufälligen Effekten
random_model <- lmer(Einkommen ~ Alter + Geschlecht + (1|Person), data = data)
summary(random_model)

Beispiel in Python:

# Modell mit zufälligen Effekten
random_model = MixedLM.from_formula("Einkommen ~ Alter + Geschlecht", data, groups=data["Person"])
random_result = random_model.fit()
print(random_result.summary())

Vergleich der Modelle

Vergleichen Sie die Modelle anhand der AIC- und BIC-Werte:

Beispiel in R:

# AIC und BIC vergleichen
AIC(fixed_model, random_model)
BIC(fixed_model, random_model)

Beispiel in Python:

# AIC und BIC vergleichen
print("Fixed Effects Model: AIC =", fixed_model.aic, ", BIC =", fixed_model.bic)
print("Random Effects Model: AIC =", random_result.aic, ", BIC =", random_result.bic)

Interpretation der Ergebnisse

  1. Feste Effekte ():

    • Der Koeffizient für Alter () zeigt, wie sich das Einkommen mit zunehmendem Alter ändert.
    • Der Koeffizient für Geschlecht () zeigt den Unterschied im Einkommen zwischen den Geschlechtern.
  2. Zufällige Effekte ():

    • Der zufällige Effekt für die Personen zeigt die individuelle Variation der Einkommensverläufe.
  3. Varianzkomponenten:

    • Die Varianzkomponenten geben an, wie viel der Gesamtvarianz durch die zufälligen Effekte der Personen erklärt wird.

Weiterführende Übungen

  1. Erweiterung der Modelle:

    • Fügen Sie weitere feste und zufällige Effekte hinzu, z.B. Bildung oder Berufserfahrung.
    • Beispiel:
  2. Analyse von Paneldaten:

    • Verwenden Sie Paneldaten, um den Einfluss von Zeit auf die abhängige Variable zu untersuchen.
    • Beispiel: $\text{Einkommen} \sim \text{Zeit} + \text

{Alter} + \text{Geschlecht} + (1|\text{Person})$

  1. Simulation von Daten:
    • Simulieren Sie Daten mit bekannten festen und zufälligen Effekten und überprüfen Sie, ob die gemischten Modelle die wahren Parameter korrekt schätzen können.

Fazit

Das Verständnis und die Anwendung gemischter linearer Modelle sind entscheidend für die Analyse komplexer Datenstrukturen. Diese Modelle ermöglichen es, sowohl feste als auch zufällige Effekte zu berücksichtigen, was zu präziseren und robusteren Ergebnissen führt. Die vorgestellten Techniken und Beispiele bieten eine solide Grundlage für die Anwendung dieser Modelle in verschiedenen Kontexten.