Woche 5-6: Quadratsummenzerlegung und statistische Inferenz

Ziel

Verständnis der Zerlegung der Quadratsummen und der statistischen Inferenz bei Regressionsmodellen.

Inhalte

Gesamte Quadratsumme (SST), erklärbare Quadratsumme (SSR) und Residuenquadratsumme (SSE)

In der Regressionsanalyse wird die Gesamtvariation der abhängigen Variable in verschiedene Komponenten zerlegt, um die Güte und Aussagekraft des Modells zu bewerten.

Gesamte Quadratsumme (SST)

Die gesamte Quadratsumme (Total Sum of Squares, SST) misst die gesamte Variation der abhängigen Variable um ihren Mittelwert .

Erklärbare Quadratsumme (SSR)

Die erklärbare Quadratsumme (Regression Sum of Squares, SSR) misst die Variation der abhängigen Variable, die durch das Regressionsmodell erklärt wird.

Residuenquadratsumme (SSE)

Die Residuenquadratsumme (Error Sum of Squares, SSE) misst die Variation der abhängigen Variable, die nicht durch das Modell erklärt wird (d.h. die Fehlerkomponente).

Beziehung zwischen SST, SSR und SSE

Die Quadratsummen haben eine additive Beziehung:

F-Tests zur Gesamtmodellprüfung

Der F-Test wird verwendet, um die Gesamtgüte des Regressionsmodells zu bewerten. Er testet die Nullhypothese, dass alle Regressionskoeffizienten (außer dem Achsenabschnitt) gleich null sind.

F-Test-Statistik

Die F-Statistik wird wie folgt berechnet:

  • : Mittlere Quadratsumme der Regression (Mean Square Regression)
  • : Mittlere Quadratsumme des Fehlers (Mean Square Error)

Einzelfaktortests

Einzelfaktortests, in der Regel t-Tests, werden verwendet, um die Bedeutung einzelner Regressionskoeffizienten zu bewerten. Der t-Test prüft die Nullhypothese, dass ein bestimmter Regressionskoeffizient gleich null ist.

t-Test-Statistik

Die t-Statistik wird wie folgt berechnet:

  • : geschätzter Regressionskoeffizient
  • : Standardfehler des geschätzten Regressionskoeffizienten

Varianzzerlegung und Interpretation

Die Varianzzerlegung hilft dabei zu verstehen, wie viel der Gesamtvariation der abhängigen Variable durch das Modell erklärt wird und wie viel durch Zufall oder Fehler.

Varianzzerlegung

Die Varianzzerlegung basiert auf der Quadratsummenzerlegung:

  • gibt den Anteil der Gesamtvariation an, der durch das Modell erklärt wird.
  • Ein höherer Wert deutet auf eine bessere Modellanpassung hin.

Übungen

Zerlegung der Quadratsummen in praktischen Beispielen

Beispiel in R

# Daten laden
data <- read.csv("data.csv")
 
# Lineares Regressionsmodell erstellen
model <- lm(Y ~ X1 + X2 + X3, data = data)
summary(model)
 
# Quadratsummen berechnen
SST <- sum((data$Y - mean(data$Y))^2)
SSR <- sum((fitted(model) - mean(data$Y))^2)
SSE <- sum(residuals(model)^2)
 
# Ergebnisse anzeigen
cat("SST:", SST, "\n")
cat("SSR:", SSR, "\n")
cat("SSE:", SSE, "\n")
cat("SST = SSR + SSE:", SST, "=", SSR + SSE, "\n")

Beispiel in Python

import pandas as pd
import statsmodels.api as sm
 
# Daten laden
data = pd.read_csv("data.csv")
 
# Lineares Regressionsmodell erstellen
X = data[['X1', 'X2', 'X3']]
X = sm.add_constant(X)
model = sm.OLS(data['Y'], X).fit()
 
# Quadratsummen berechnen
SST = ((data['Y'] - data['Y'].mean())**2).sum()
SSR = ((model.fittedvalues - data['Y'].mean())**2).sum()
SSE = ((data['Y'] - model.fittedvalues)**2).sum()
 
# Ergebnisse anzeigen
print(f'SST: {SST}')
print(f'SSR: {SSR}')
print(f'SSE: {SSE}')
print(f'SST = SSR + SSE: {SST} = {SSR + SSE}')

Durchführung von F-Tests zur Modellbewertung

Beispiel in R

# F-Statistik berechnen
f_statistic <- summary(model)$fstatistic[1]
p_value <- pf(f_statistic, df1 = summary(model)$fstatistic[2], df2 = summary(model)$fstatistic[3], lower.tail = FALSE)
 
# Ergebnisse anzeigen
cat("F-Statistik:", f_statistic, "\n")
cat("p-Wert:", p_value, "\n")

Beispiel in Python

# F-Statistik und p-Wert aus dem Modell extrahieren
f_statistic = model.fvalue
p_value = model.f_pvalue
 
# Ergebnisse anzeigen
print(f'F-Statistik: {f_statistic}')
print(f'p-Wert: {p_value}')

Interpretation der Ergebnisse

  1. Quadratsummenzerlegung: Bestätigen, dass SST = SSR + SSE. Dies zeigt, dass die gesamte Variation der abhängigen Variable korrekt in erklärte und unerklärte Teile zerlegt wurde.
  2. F-Test: Ein hoher F-Wert und ein niedriger p-Wert (typischerweise < 0.05) deuten darauf hin, dass das Modell insgesamt signifikant ist und mindestens einer der Prädiktoren einen signifikanten Einfluss auf die abhängige Variable hat.
  3. Einzelfaktortests (t-Tests): Einzelne t-Tests helfen dabei, die Bedeutung jedes Prädiktors im Modell zu bewerten. Ein signifikantes Ergebnis (p < 0.05) zeigt, dass der entsprechende Prädiktor einen signifikanten Beitrag zur Erklärung der abhängigen Variable leistet.

Dieses Skript bietet eine umfassende Einführung in die Quadratsummenzerlegung und die statistische Inferenz in Regressionsmodellen, ergänzt durch praktische Beispiele und Übungen zur Vertiefung des Verständnisses und der Fähigkeiten in der Anwendung und Interpretation der Ergebnisse.