R² und Adjusted R²

Einführung

In der statistischen Modellierung, insbesondere in der Regressionsanalyse, sind R² und Adjusted R² wichtige Maße, um die Güte eines Modells zu beurteilen. Sie helfen dabei, zu verstehen, wie gut das Modell die Variabilität der abhängigen Variable erklärt.

R² (Bestimmtheitsmaß)

R² zeigt, wie gut ein Modell die Daten erklärt. Es sagt uns, wie viel von dem, was wir messen, durch das Modell vorhergesagt wird. Ein höherer R²-Wert bedeutet, dass das Modell besser vorhersagt.

Definition

R², auch Bestimmtheitsmaß genannt, zeigt an, wie gut ein statistisches Modell die Daten erklärt. Genauer gesagt, gibt R² an, wie viel von der gesamten Streuung der Daten durch das Modell erklärt wird. Ein höherer R²-Wert bedeutet, dass das Modell die Daten besser beschreibt. Es gibt einen Wert zwischen 0 und 1 an, wobei ein Wert näher bei 1 bedeutet, dass das Modell die Daten gut erklärt.

Formel

Die Formel zur Berechnung von R² lautet:

wobei:

  • (Residual Sum of Squares) die Summe der quadrierten Abweichungen der beobachteten Werte von den vorhergesagten Werten ist. Dies misst, wie weit die tatsächlichen Datenpunkte von den durch das Modell vorhergesagten Werten entfernt sind.
  • (Total Sum of Squares) die Summe der quadrierten Abweichungen der beobachteten Werte vom Durchschnittswert ist. Dies misst die gesamte Variabilität in den Daten.

Beispiel

Angenommen, wir haben ein einfaches lineares Regressionsmodell, das die Beziehung zwischen der Studienzeit (in Stunden) und den Prüfungsergebnissen (in Punkten) untersucht. Wenn R² = 0.8, bedeutet dies, dass 80% der Variabilität in den Prüfungsergebnissen durch die Studienzeit erklärt werden können.

Berechnungsbeispiel für R²

Angenommen, wir haben die folgenden Daten:

Studienzeit (Stunden)Prüfungsergebnis (Punkte)
250
355
565
770
980

Der Mittelwert der Prüfungsergebnisse beträgt 64 Punkte. Die durch das Modell vorhergesagten Ergebnisse basierend auf der Regressionsgleichung sind 52, 57, 65, 73, und 81 Punkte.

Berechnung von :

Berechnung von :

Berechnung von R²:

In diesem Fall beträgt R² 0.9745, was bedeutet, dass 97.45% der Variabilität in den Prüfungsergebnissen durch die Studienzeit erklärt werden können.

Adjusted R² (Angepasstes Bestimmtheitsmaß)

Definition

Adjusted R² ist eine modifizierte Version von R², die die Anzahl der Prädiktoren im Modell berücksichtigt. Es bestraft Modelle mit vielen Prädiktoren, die die Daten möglicherweise überanpassen (Overfitting).

Formel

Die Formel zur Berechnung von Adjusted R² lautet:

wobei:

  • die Anzahl der Beobachtungen ist,
  • die Anzahl der Prädiktoren ist.

Beispiel

Angenommen, wir haben ein Regressionsmodell mit den folgenden Werten:

  • Anzahl der Beobachtungen (n): 100
  • Anzahl der Prädiktoren (k): 5
  • R²: 0.85

Wir können Adjusted R² wie folgt berechnen:

In diesem Beispiel zeigt Adjusted R² einen leicht niedrigeren Wert als R², was darauf hinweist, dass das Modell möglicherweise einige unnötige Prädiktoren enthält.

Vergleich von R² und Adjusted R²

  • :
    • Misst den Anteil der erklärten Varianz.
    • Kann durch Hinzufügen von Prädiktoren künstlich erhöht werden.
  • Adjusted R²:
    • Berücksichtigt die Anzahl der Prädiktoren.
    • Bestraft für unnötige Komplexität und Overfitting.

In der Praxis wird Adjusted R² oft bevorzugt, da es ein realistischeres Bild der Modellgüte vermittelt, insbesondere bei Modellen mit vielen Prädiktoren.

Fazit

Sowohl R² als auch Adjusted R² sind nützliche Metriken zur Bewertung der Modellgüte in der Regressionsanalyse. Während R² einfach zu berechnen und zu interpretieren ist, bietet Adjusted R² eine bessere Kontrolle über Modelle mit vielen Prädiktoren, indem es die Anzahl der Variablen berücksichtigt und dadurch Überanpassung (Overfitting) reduziert. Bei der Bewertung und Auswahl von Modellen sollte Adjusted R² bevorzugt verwendet werden, um ein realistischeres Bild der Vorhersagekraft eines Modells zu erhalten.