Woche 13-14: Das allgemeine lineare Modell

Ziel

Verständnis des allgemeinen linearen Modells und seiner Anwendung in verschiedenen Kontexten.

Inhalte

Erweiterung des linearen Modells auf gemischte Effekte

Das allgemeine lineare Modell (ALM) erweitert das einfache lineare Regressionsmodell, um verschiedene Arten von Effekten zu berücksichtigen, einschließlich fester und zufälliger Effekte. Diese Erweiterung ermöglicht die Modellierung von Daten mit komplexen Strukturen, wie beispielsweise hierarchischen oder verschachtelten Daten.

Allgemeine Form des linearen Modells

Y = Xβ + ϵ

$Y$ : Vektor der abhängigen Variablen
$X$ : Designmatrix der festen Effekte
$β$ : Vektor der festen Effekte
$ϵ$ : Vektor der Residuen

Fest- und Zufallseffekte

Feste Effekte

Feste Effekte sind Effekte, die konstant und reproduzierbar sind. Diese Effekte interessieren uns spezifisch und sind von vorrangigem Interesse in der Analyse.

Beispiele für feste Effekte:

Geschlecht (männlich/weiblich)
Behandlungsgruppe (Kontroll-/Behandlungsgruppe)

Zufallseffekte

Zufallseffekte sind Effekte, die zufällig aus einer größeren Population ausgewählt werden. Diese Effekte repräsentieren Variationen, die nicht von spezifischem Interesse sind, aber dennoch modelliert werden müssen, um die Daten korrekt zu analysieren.

Beispiele für Zufallseffekte:

Versuchspersonen in einer Studie
Schulen in einer Bildungsstudie

Hierarchische und gemischte Modelle

Hierarchische Modelle

Hierarchische Modelle, auch als verschachtelte Modelle bekannt, sind eine Art von gemischten Modellen, die die Verschachtelung von Daten berücksichtigen. Beispielsweise können Schüler innerhalb von Klassen, und Klassen innerhalb von Schulen verschachtelt sein.

Gemischte Modelle

Gemischte Modelle, auch als gemischte lineare Modelle bekannt, kombinieren feste und zufällige Effekte. Sie sind besonders nützlich, wenn die Daten sowohl feste als auch zufällige Variationen aufweisen.

Allgemeine Form des gemischten Modells:

Y = Xβ + Z γ + ϵ

$Y$ : Vektor der abhängigen Variablen
$X$ : Designmatrix der festen Effekte
$β$ : Vektor der festen Effekte
$Z$ : Designmatrix der zufälligen Effekte
$γ$ : Vektor der zufälligen Effekte
$ϵ$ : Vektor der Residuen

Varianzkomponentenschätzung

Die Varianzkomponentenschätzung ist ein wesentlicher Bestandteil gemischter Modelle. Sie ermöglicht die Schätzung der Varianz, die durch die zufälligen Effekte erklärt wird.

Methode der maximalen Likelihood (ML)

Die maximale Likelihood-Methode schätzt die Parameter, die die Wahrscheinlichkeit der beobachteten Daten maximieren.

Restricted Maximum Likelihood (REML)

Die REML-Methode ist eine Erweiterung der maximalen Likelihood-Methode und wird häufig bei der Schätzung der Varianzkomponenten verwendet, da sie unverzerrtere Schätzungen liefert.

Übungen

Anwendung gemischter Modelle auf reale Datensätze

Beispiel in R:

# Paket laden
library(lme4)
 
# Daten laden
data <- read.csv("data.csv")
 
# Gemischtes Modell erstellen
model <- lmer(Y ~ X1 + X2 + (1|random_effect), data = data)
 
# Zusammenfassung des Modells anzeigen
summary(model)

Beispiel in Python:

import pandas as pd
import statsmodels.api as sm
from statsmodels.regression.mixed_linear_model import MixedLM
 
# Daten laden
data = pd.read_csv("data.csv")
 
# Gemischtes Modell erstellen
model = MixedLM.from_formula("Y ~ X1 + X2", data, groups=data["random_effect"])
result = model.fit()
 
# Zusammenfassung des Modells anzeigen
print(result.summary())

Interpretation von Modellergebnissen mit gemischten Effekten

Feste Effekte ( $β$ ):
- Die festen Effekte geben die Beziehung zwischen den unabhängigen Variablen und der abhängigen Variable an.
- Beispiel: Der Koeffizient für $X 1$ zeigt, wie sich $Y$ ändert, wenn $X 1$ um eine Einheit erhöht wird, unter der Annahme, dass alle anderen Variablen konstant gehalten werden.
Zufällige Effekte ( $γ$ ):
- Die zufälligen Effekte repräsentieren die Variation zwischen den Gruppen.
- Beispiel: Der zufällige Effekt für jede Gruppe zeigt die Abweichung der Gruppe vom Gesamtdurchschnitt.
Varianzkomponenten:
- Die Varianzkomponenten geben an, wie viel der Gesamtvarianz durch die zufälligen Effekte erklärt wird.
- Beispiel: Eine hohe Varianzkomponente für den zufälligen Effekt deutet darauf hin, dass die Gruppen eine signifikante Quelle der Variation darstellen.

Detaillierte Beispiele und Interpretation

Beispiel: Bildungsstudie

Angenommen, wir haben eine Bildungsstudie, in der wir den Einfluss von Unterrichtsstrategien auf die Leistungen der Schüler untersuchen. Die Daten umfassen Schüler in verschiedenen Klassen, und die Klassen sind in verschiedenen Schulen verschachtelt.

Schritte zur Analyse:

Datenstruktur:
- Schüler sind in Klassen verschachtelt.
- Klassen sind in Schulen verschachtelt.
Modellformulierung:
- Feste Effekte: Unterrichtsstrategie
- Zufällige Effekte: Klassen, Schulen