Wann sollte man verwenden und wann adjustiertes ?
Einleitung
und adjustiertes sind zwei wichtige Maßzahlen in der Regressionsanalyse, die jeweils unterschiedliche Aspekte der Modellanpassung bewerten. Die Entscheidung, welches Maß in einer bestimmten Situation verwendet werden sollte, hängt von verschiedenen Faktoren ab, einschließlich der Anzahl der unabhängigen Variablen im Modell und der Stichprobengröße. In diesem Abschnitt werden wir die Unterschiede zwischen und adjustiertem detailliert erläutern und Leitlinien für ihre Anwendung in verschiedenen Szenarien bereitstellen.
: Definition und Anwendung
Definition von
, auch als Bestimmtheitsmaß bekannt, misst den Anteil der Varianz in der abhängigen Variable, der durch die unabhängigen Variablen im Modell erklärt wird. Es wird wie folgt berechnet:
wobei:
- die Residuenquadratsumme ist,
- die totale Quadratsumme ist.
Anwendung von
wird häufig in Situationen verwendet, in denen man einen schnellen Überblick über die Güte der Modellanpassung erhalten möchte. Es ist besonders nützlich in den folgenden Fällen:
-
Einfache lineare Regression: Bei Modellen mit nur einer unabhängigen Variablen bietet eine klare und leicht verständliche Maßzahl für die Güte der Anpassung.
-
Modelle mit wenigen unabhängigen Variablen: Wenn das Modell nur wenige unabhängige Variablen enthält, ist oft ausreichend, um die Anpassung zu bewerten.
-
Explorative Analyse: In den frühen Stadien der Analyse, wenn man verschiedene Modelle vergleicht und erkundet, kann verwendet werden, um schnell zu beurteilen, wie gut verschiedene Modelle die Daten erklären.
Beispiele für die Anwendung von
Einfache lineare Regression
Angenommen, wir haben ein Modell zur Vorhersage der Körpergröße basierend auf der Schuhgröße :
Wenn das Modell ein von 0.75 liefert, bedeutet dies, dass 75% der Varianz in der Körpergröße durch die Schuhgröße erklärt werden.
Adjustiertes : Definition und Anwendung
Definition des adjustierten
Das adjustierte berücksichtigt die Anzahl der unabhängigen Variablen im Modell und passt den -Wert entsprechend an, um Überanpassung zu vermeiden. Es wird wie folgt berechnet:
wobei:
- die Anzahl der Beobachtungen ist,
- die Anzahl der unabhängigen Variablen ist.
Anwendung des adjustierten
Das adjustierte wird verwendet, wenn das Modell mehrere unabhängige Variablen enthält oder wenn man Modelle mit unterschiedlicher Anzahl von Prädiktoren vergleicht. Es ist besonders nützlich in den folgenden Fällen:
-
Multiple lineare Regression: Bei Modellen mit mehreren unabhängigen Variablen bietet das adjustierte eine genauere Bewertung der Modellanpassung.
-
Modellvergleich: Wenn man mehrere Modelle mit unterschiedlicher Anzahl von Prädiktoren vergleicht, hilft das adjustierte dabei zu bestimmen, ob zusätzliche Variablen die Modellanpassung tatsächlich verbessern.
-
Vermeidung von Überanpassung: In Situationen, in denen das Risiko einer Überanpassung besteht (z.B. bei kleinen Stichprobengrößen oder vielen Prädiktoren), bietet das adjustierte eine robustere Bewertung der Modellgüte.
Beispiele für die Anwendung des adjustierten
Multiple lineare Regression
Angenommen, wir haben ein Modell zur Vorhersage des Gehalts basierend auf den Variablen Berufserfahrung , Bildungsniveau und Alter :
Wenn das Modell ein von 0.80 und ein adjustiertes von 0.75 liefert, bedeutet dies, dass 80% der Varianz im Gehalt durch die drei Prädiktoren erklärt werden, aber nach Anpassung für die Anzahl der Prädiktoren erklärt das Modell tatsächlich nur 75% der Varianz.
Vergleich von und Adjustiertem
Unterschiedliche Interpretationen
- : Misst den Anteil der erklärten Varianz, ohne die Anzahl der Prädiktoren zu berücksichtigen. Es kann bei der Hinzufügung von Variablen nur steigen oder gleich bleiben.
- Adjustiertes : Passt den -Wert an, indem die Anzahl der Prädiktoren und die Stichprobengröße berücksichtigt werden. Es kann sinken, wenn eine hinzugefügte Variable keinen signifikanten Beitrag zur Erklärung der Varianz leistet.
Szenarien für die Verwendung
- Verwendung von : Geeignet für Modelle mit wenigen Prädiktoren oder wenn ein schneller Überblick über die Modellanpassung benötigt wird.
- Verwendung des adjustierten : Geeignet für Modelle mit mehreren Prädiktoren oder bei Modellvergleichen, um Überanpassung zu vermeiden und eine genauere Bewertung der Modellgüte zu erhalten.
Praktisches Beispiel
Angenommen, wir haben zwei Modelle zur Vorhersage der Verkaufszahlen :
- Modell 1: Verwendet die Variablen Werbebudget und Verkaufsförderung
- Modell 2: Verwendet zusätzlich die Variable Online-Präsenz
Die -Werte für die beiden Modelle sind wie folgt:
- Modell 1: , adjustiertes
- Modell 2: , adjustiertes
Hier zeigt das , dass Modell 2 etwas mehr Varianz erklärt als Modell 1. Das adjustierte zeigt jedoch, dass die zusätzliche Variable in Modell 2 keinen signifikanten Beitrag zur Erklärung der Varianz leistet und das Modell tatsächlich schlechter anpasst, wenn die Anzahl der Prädiktoren berücksichtigt wird.
Zusammenfassung
und adjustiertes sind beide wichtige Maßzahlen zur Bewertung der Güte der Anpassung eines Regressionsmodells. Während einen allgemeinen Überblick über die erklärte Varianz bietet, berücksichtigt das adjustierte die Anzahl der Prädiktoren und bietet eine genauere Bewertung der Modellgüte in komplexeren Modellen. Durch die bewusste Anwendung dieser Maßzahlen können Forscher fundierte Entscheidungen treffen und robuste statistische Analysen durchführen.