Woche 5-6: Quadratsummenzerlegung und statistische Inferenz
Ziel
Verständnis der Zerlegung der Quadratsummen und der statistischen Inferenz bei Regressionsmodellen.
Inhalte
Gesamte Quadratsumme (SST), erklärbare Quadratsumme (SSR) und Residuenquadratsumme (SSE)
In der Regressionsanalyse wird die Gesamtvariation der abhängigen Variable in verschiedene Komponenten zerlegt, um die Güte und Aussagekraft des Modells zu bewerten.
Gesamte Quadratsumme (SST)
Die gesamte Quadratsumme (Total Sum of Squares, SST) misst die gesamte Variation der abhängigen Variable um ihren Mittelwert .
Erklärbare Quadratsumme (SSR)
Die erklärbare Quadratsumme (Regression Sum of Squares, SSR) misst die Variation der abhängigen Variable, die durch das Regressionsmodell erklärt wird.
Residuenquadratsumme (SSE)
Die Residuenquadratsumme (Error Sum of Squares, SSE) misst die Variation der abhängigen Variable, die nicht durch das Modell erklärt wird (d.h. die Fehlerkomponente).
Beziehung zwischen SST, SSR und SSE
Die Quadratsummen haben eine additive Beziehung:
F-Tests zur Gesamtmodellprüfung
Der F-Test wird verwendet, um die Gesamtgüte des Regressionsmodells zu bewerten. Er testet die Nullhypothese, dass alle Regressionskoeffizienten (außer dem Achsenabschnitt) gleich null sind.
F-Test-Statistik
Die F-Statistik wird wie folgt berechnet:
- : Mittlere Quadratsumme der Regression (Mean Square Regression)
- : Mittlere Quadratsumme des Fehlers (Mean Square Error)
Einzelfaktortests
Einzelfaktortests, in der Regel t-Tests, werden verwendet, um die Bedeutung einzelner Regressionskoeffizienten zu bewerten. Der t-Test prüft die Nullhypothese, dass ein bestimmter Regressionskoeffizient gleich null ist.
t-Test-Statistik
Die t-Statistik wird wie folgt berechnet:
- : geschätzter Regressionskoeffizient
- : Standardfehler des geschätzten Regressionskoeffizienten
Varianzzerlegung und Interpretation
Die Varianzzerlegung hilft dabei zu verstehen, wie viel der Gesamtvariation der abhängigen Variable durch das Modell erklärt wird und wie viel durch Zufall oder Fehler.
Varianzzerlegung
Die Varianzzerlegung basiert auf der Quadratsummenzerlegung:
- gibt den Anteil der Gesamtvariation an, der durch das Modell erklärt wird.
- Ein höherer Wert deutet auf eine bessere Modellanpassung hin.
Übungen
Zerlegung der Quadratsummen in praktischen Beispielen
Beispiel in R
Beispiel in Python
Durchführung von F-Tests zur Modellbewertung
Beispiel in R
Beispiel in Python
Interpretation der Ergebnisse
- Quadratsummenzerlegung: Bestätigen, dass SST = SSR + SSE. Dies zeigt, dass die gesamte Variation der abhängigen Variable korrekt in erklärte und unerklärte Teile zerlegt wurde.
- F-Test: Ein hoher F-Wert und ein niedriger p-Wert (typischerweise < 0.05) deuten darauf hin, dass das Modell insgesamt signifikant ist und mindestens einer der Prädiktoren einen signifikanten Einfluss auf die abhängige Variable hat.
- Einzelfaktortests (t-Tests): Einzelne t-Tests helfen dabei, die Bedeutung jedes Prädiktors im Modell zu bewerten. Ein signifikantes Ergebnis (p < 0.05) zeigt, dass der entsprechende Prädiktor einen signifikanten Beitrag zur Erklärung der abhängigen Variable leistet.
Dieses Skript bietet eine umfassende Einführung in die Quadratsummenzerlegung und die statistische Inferenz in Regressionsmodellen, ergänzt durch praktische Beispiele und Übungen zur Vertiefung des Verständnisses und der Fähigkeiten in der Anwendung und Interpretation der Ergebnisse.