Inhaltsverzeichnis
1. Residuenanalyse
- Residuen
- Q-Q-Plot
- Residuenplot
- Wichtige Begriffe
- Beispiel
2. Intraclass-Korrelation
- Intraclass-Korrelation (ICC)
- Anwendung
- Wichtige Punkte
3. Modellbewertung
- Akaike-Informationskriterium (AIC)
- Deviance Residuals
- Root Mean Squared Error (RMSE)
4. Homoskedastizität vs. Heteroskedastizität
- Homoskedastizität
- Heteroskedastizität
5. Modellvergleiche
- Multiples lineares Modell vs. gemischtes Modell
- ANOVA-Test
6. Interaktionseffekte
- Interaktionsterms
- Interaktionseffekt
7. F-Test
- F-Test
- Berechnung
- Interpretation
- Anwendung
- Beispiel
8. Determinationskoeffizient
- R² und adjustiertes R²
9. Schätzungen
- ICC-Schätzung
- Lineares gemischtes Modell
10. Modellgüte
- Modellgüte I
11. Kodierung
- Effektkodierung vs. Referenzkodierung
- Effektkodierung
- Referenzkodierung
12. Variablenselektion
- Variablenselektion
- Methoden der Variablenselektion
13. Weitere Tests
- Ceteris Paribus
Residuenanalyse
Residuen
- Definition: Residuen sind die Differenzen zwischen den beobachteten Werten und den durch das Modell vorhergesagten Werten .
- Zweck: Überprüfung der Modellannahmen und der Güte der Modellanpassung.
- Interpretation:
- Zufällige Verteilung der Residuen: Deutet auf ein gutes Modell hin.
- Systematische Muster: Weisen auf Modellfehler hin (z.B. Nichtlinearität, Heteroskedastizität).
Q-Q-Plot
- Definition: Ein Quantil-Quantil-Plot vergleicht die Verteilung der Residuen mit einer theoretischen Normalverteilung.
- Vorgehen:
- Berechne die Residuen .
- Sortiere die Residuen.
- Vergleiche die Quantile der sortierten Residuen mit den Quantilen einer Normalverteilung.
- Interpretation:
- Residuen auf einer Linie: Residuen sind normalverteilt.
- Residuen weichen systematisch ab: Hinweise auf Abweichungen von der Normalverteilung.
Residuenplot
- Definition: Darstellung der Residuen gegen die vorhergesagten Werte oder die unabhängigen Variablen .
- Zweck: Identifikation von Mustern und Abweichungen.
- Interpretation:
- Keine Struktur: Gute Modellanpassung.
- Struktur erkennbar: Mögliche Modellmängel (z.B. Nichtlinearitäten).
Wichtige Begriffe
- Heteroskedastizität: Die Varianz der Residuen ist nicht konstant.
- Nichtlinearität: Das Modell erfasst nicht die wahre Beziehung zwischen den Variablen.
Beispiel
- Residuen berechnen:
- Residuenplot erstellen:
- Plot: gegen
- Q-Q-Plot erstellen:
- Quantile der Residuen gegen Quantile der Normalverteilung plotten.
Intraclass-Korrelation
Intraclass-Korrelation (ICC)
- Definition: Die Intraklassenkorrelation misst die Ähnlichkeit oder Konsistenz von Messungen innerhalb derselben Gruppe oder Klasse. Ein hoher ICC-Wert zeigt an, dass die Messungen innerhalb der Gruppen sehr ähnlich sind, während ein niedriger Wert auf geringe Ähnlichkeit hinweist.
- Formel:
-
: Mittel der Quadrate zwischen den Gruppen (Mean Square Between)
-
: Mittel der Quadrate innerhalb der Gruppen (Mean Square Within)
-
: Anzahl der Messungen pro Gruppe
-
Interpretation:
- Hoher ICC-Wert: Hohe Ähnlichkeit der Messungen innerhalb der Gruppen.
- Niedriger ICC-Wert: Geringe Ähnlichkeit der Messungen innerhalb der Gruppen.
Anwendung
- Beispiel: Bewertung der Konsistenz von Bewertungen durch verschiedene Bewerter oder Konsistenz von Messungen durch verschiedene Instrumente.
- Zweck: Überprüfung der Reliabilität und Konsistenz der Messungen.
Wichtige Punkte
- Ein ICC-Wert nahe 1 deutet auf eine hohe Konsistenz innerhalb der Gruppen hin.
- Ein ICC-Wert nahe 0 deutet auf eine geringe Konsistenz innerhalb der Gruppen hin.
Verwende diese Cheatsheet als schnelle Referenz während deiner Klausur, um sicherzustellen, dass du die richtige Formel und die Interpretation der Intraklassenkorrelation parat hast.
Modellbewertung
Akaike-Informationskriterium (AIC)
-
Definition: Das AIC bewertet Modelle basierend auf ihrer Güte der Anpassung und der Anzahl der Parameter. Ein niedrigerer AIC-Wert weist auf ein besseres Modell hin, da es sowohl die Anpassungsgüte als auch die Modellkomplexität berücksichtigt.
-
Formel:
- : Anzahl der Parameter im Modell
- : Maximale Likelihood des Modells
-
Interpretation:
- Niedrigerer AIC-Wert: Besseres Modell (unter Berücksichtigung von Anpassungsgüte und Komplexität).
Deviance Residuals
- Definition: Die Abweichungsresiduen messen die Differenz zwischen den beobachteten und den durch das Modell vorhergesagten Werten. Große Abweichungen können auf eine schlechte Modellanpassung hinweisen.
- Interpretation:
- Große Abweichungen: Hinweise auf eine schlechte Modellanpassung.
- Kleine Abweichungen: Hinweise auf eine gute Modellanpassung.
Root Mean Squared Error (RMSE)
-
Definition: Der RMSE ist die Quadratwurzel des mittleren quadratischen Fehlers und gibt die durchschnittliche Abweichung der vorhergesagten Werte von den tatsächlichen Werten an.
-
Formel:
- : Anzahl der Beobachtungen
- : Beobachtete Werte
- : Vorhergesagte Werte
-
Interpretation:
- Niedrigerer RMSE-Wert: Bessere Modellanpassung.
Homoskedastizität vs. Heteroskedastizität
Homoskedastizität
- Definition: Homoskedastizität liegt vor, wenn die Varianz der Residuen konstant ist. Dies ist eine wichtige Annahme in der linearen Regression.
- Bedeutung:
- Gleichmäßige Verteilung der Fehlerterme.
- Sicherstellung der Effizienz und Unverzerrtheit der Schätzungen.
Heteroskedastizität
-
Definition: Heteroskedastizität bedeutet, dass die Varianz der Residuen variiert. Dies kann zu ineffizienten und verzerrten Schätzungen führen.
-
Erkennung:
- Breusch-Pagan-Test: Testet auf systematische Veränderungen der Varianz der Residuen.
- White-Test: Ein allgemeiner Test, der keine spezifische Form der Heteroskedastizität voraussetzt.
-
Anpassungen:
- Gewichtete Regression: Anpassung des Modells durch Gewichtung der Residuen zur Korrektur der Heteroskedastizität.
- Robuste Standardfehler: Verwendung von Standardfehlern, die robust gegenüber Heteroskedastizität sind.
Modellvergleiche
Multiples lineares Modell vs. gemischtes Modell
-
Multiples lineares Modell:
- Definition: Berücksichtigt nur feste Effekte.
- Verwendung: Modellierung der Beziehung zwischen einer abhängigen Variable und mehreren unabhängigen Variablen.
- Formel:
-
Gemischtes Modell:
- Definition: Berücksichtigt sowohl feste als auch zufällige Effekte.
- Verwendung: Nützlich, wenn Daten Hierarchien oder Verschachtelungen aufweisen.
- Formel:
- : Zufällige Effekte
- : Zufallsvariablen
ANOVA-Test
- Definition: Die Analyse der Varianz (ANOVA) vergleicht die Mittelwerte mehrerer Gruppen und bestimmt, ob mindestens eine Gruppe signifikant unterschiedlich ist.
- Vorgehen:
- Zerlegung der Gesamtvarianz in zwischen- und innerhalb-Gruppen-Varianz.
- Formel:
- Interpretation:
- Ein hoher F-Wert weist auf signifikante Unterschiede zwischen den Gruppen hin.
Interaktionseffekte
Interaktionsterms
- Definition: Diese Terme modellieren die Interaktion zwischen zwei oder mehr unabhängigen Variablen. Sie zeigen an, dass die Wirkung einer Variable von der Ausprägung einer anderen Variable abhängt.
- Formel:
- : Interaktionsterm zwischen und
- : Koeffizient des Interaktionsterms
Interaktionseffekt
- Definition: Ein signifikanter Interaktionseffekt zeigt, dass die Wirkung einer unabhängigen Variablen auf die abhängige Variable unterschiedlich ist, je nach Wert einer anderen unabhängigen Variable.
- Interpretation:
- Positiver Interaktionseffekt: Verstärkt die Wirkung der beteiligten Variablen.
- Negativer Interaktionseffekt: Schwächt die Wirkung der beteiligten Variablen.
- Signifikanz: Ein signifikanter Interaktionseffekt bedeutet, dass die Beziehung zwischen den Variablen nicht additiv ist, sondern die Wirkung einer Variable von der anderen abhängt.
F-Test
F-Test
- Definition: Der F-Test vergleicht die erklärte Varianz des Modells mit der unerklärten Varianz. Er wird verwendet, um die Gesamtanpassung des Modells zu beurteilen.
- Zweck: Bestimmen, ob das Modell signifikant besser ist als ein Modell ohne Prädiktoren (d.h., ob mindestens ein Prädiktor das Modell signifikant verbessert).
Berechnung
- Formel:
- Erklärte Varianz (SSR): Summe der Quadrate der Differenzen zwischen den vorhergesagten Werten und dem Mittelwert der beobachteten Werte.
- Unerklärte Varianz (SSE): Summe der Quadrate der Differenzen zwischen den beobachteten Werten und den vorhergesagten Werten.
- Anzahl der Prädiktoren (p): Anzahl der unabhängigen Variablen im Modell.
- Anzahl der Freiheitsgrade (n - p - 1): Anzahl der Beobachtungen minus Anzahl der Prädiktoren minus eins.
Interpretation
- Signifikanter F-Test: Ein signifikanter F-Wert (p-Wert < 0,05) zeigt an, dass das Modell die Daten signifikant besser erklärt als ein Modell ohne Prädiktoren. Dies bedeutet, dass mindestens eine der unabhängigen Variablen das Modell signifikant verbessert.
- Nicht signifikanter F-Test: Ein nicht signifikanter F-Wert (p-Wert >= 0,05) bedeutet, dass das Modell die Daten nicht besser erklärt als ein Modell ohne Prädiktoren.
Anwendung
- Regressionsanalyse: Der F-Test wird häufig in der linearen Regression verwendet, um die Gesamtbedeutung des Modells zu testen.
- ANOVA: In der Varianzanalyse wird der F-Test verwendet, um zu bestimmen, ob die Mittelwerte von drei oder mehr Gruppen signifikant unterschiedlich sind.
Beispiel
- Modell mit einer unabhängigen Variablen:
- Gesamtvarianz (SST): Summe der Quadrate der Differenzen zwischen den beobachteten Werten und dem Mittelwert.
- Erklärte Varianz (SSR): Summe der Quadrate der Differenzen zwischen den vorhergesagten Werten und dem Mittelwert.
- Unerklärte Varianz (SSE): Summe der Quadrate der Differenzen zwischen den beobachteten Werten und den vorhergesagten Werten.
Determinationskoeffizient
R² und adjustiertes R²
-
R² (Bestimmtheitsmaß):
- Definition: R² gibt den Anteil der Gesamtvarianz der abhängigen Variable an, der durch das Modell erklärt wird.
- Formel:
- : Summe der quadratischen Abweichungen der Residuen (unerklärte Varianz)
- : Gesamtsumme der Quadrate (Gesamtvarianz)
-
Interpretation:
- R² = 1: Das Modell erklärt die gesamte Varianz der abhängigen Variable perfekt.
- R² = 0: Das Modell erklärt keine Varianz der abhängigen Variable.
- Höheres R²: Besseres Modell, da es mehr Varianz erklärt.
Adjustiertes R²
-
Definition: Das adjustierte R² berücksichtigt die Anzahl der Prädiktoren und gibt eine genauere Bewertung der Modellgüte, insbesondere bei Modellen mit vielen Prädiktoren.
-
Formel:
- : Anzahl der Beobachtungen
- : Anzahl der Prädiktoren
-
Interpretation:
- Anpassung: Berücksichtigt die Freiheitsgrade und bestraft übermäßige Verwendung von Prädiktoren.
- Besserer Vergleich: Eignet sich besser zum Vergleich von Modellen mit unterschiedlicher Anzahl von Prädiktoren.
Schätzungen
ICC-Schätzung
- Definition: Die Intraklassenkorrelation (ICC) misst die Ähnlichkeit oder Konsistenz von Messungen innerhalb derselben Gruppe oder Klasse.
- Methoden:
- Gewichtete ICC-Schätzung: Berücksichtigt die Varianz der Daten und gewichtet die Schätzungen entsprechend.
- Ungewichtete ICC-Schätzung: Verwendet gleiche Gewichte für alle Messungen, unabhängig von ihrer Varianz.
Lineares gemischtes Modell
-
Definition: Dieses Modell kombiniert feste und zufällige Effekte, um die Datenstruktur besser abzubilden und genauere Schätzungen zu liefern.
-
Formel:
- : Feste Effekte
- : Zufällige Effekte
- : Feste Prädiktoren
- : Zufallsvariablen
- : Fehlerterm
-
Vorteile:
- Flexibilität: Kann komplexe Datenstrukturen und Hierarchien modellieren.
- Genauigkeit: Liefert genauere Schätzungen durch Berücksichtigung zufälliger Effekte.
Modellgüte
Modellgüte I
-
Definition: Modellgüte bezieht sich auf die Bewertung, wie gut ein statistisches Modell die beobachteten Daten erklärt.
-
Methoden zur Bewertung der Modellgüte:
- Akaike-Informationskriterium (AIC):
- Definition: Bewertet Modelle basierend auf ihrer Güte der Anpassung und der Anzahl der Parameter.
- Formel:
- Interpretation: Niedrigerer AIC-Wert weist auf ein besseres Modell hin.
- Bayessches Informationskriterium (BIC):
- Definition: Ähnlich wie das AIC, aber mit einer stärkeren Bestrafung für Modelle mit mehr Parametern.
- Formel:
- Interpretation: Niedrigerer BIC-Wert weist auf ein besseres Modell hin.
- Bestimmtheitsmaß (R²):
- Definition: Gibt den Anteil der Gesamtvarianz der abhängigen Variable an, der durch das Modell erklärt wird.
- Formel:
- Interpretation: Höheres R² weist auf ein besseres Modell hin.
- Adjustiertes R²:
- Definition: Anpassung des R², die die Anzahl der Prädiktoren berücksichtigt.
- Formel:
- Interpretation: Besserer Vergleich von Modellen mit unterschiedlicher Anzahl von Prädiktoren.
- Root Mean Squared Error (RMSE):
- Definition: Quadratwurzel des mittleren quadratischen Fehlers, gibt die durchschnittliche Abweichung der vorhergesagten Werte von den tatsächlichen Werten an.
- Formel:
- Interpretation: Niedrigerer RMSE-Wert weist auf eine bessere Modellanpassung hin.
- Akaike-Informationskriterium (AIC):
Kodierung
Effektkodierung vs. Referenzkodierung
- Definition: Diese Kodierungen werden verwendet, um kategoriale Variablen in Modelle einzubeziehen.
Effektkodierung
-
Definition: Zeigt die Abweichung jeder Kategorie vom Gesamtmittelwert.
-
Vorgehen:
- Wähle eine Referenzkategorie.
- Kodierung der anderen Kategorien in Bezug auf den Gesamtmittelwert.
-
Beispiel:
- Angenommen, es gibt drei Kategorien: A, B, und C.
- Wenn A die Referenzkategorie ist:
- A:
- B:
- C:
-
Interpretation:
- Die Koeffizienten der kodierten Variablen zeigen die Abweichung jeder Kategorie vom Gesamtmittelwert.
Referenzkodierung
-
Definition: Zeigt die Abweichung jeder Kategorie von einer Referenzkategorie.
-
Vorgehen:
- Wähle eine Referenzkategorie.
- Kodierung der anderen Kategorien in Bezug auf die Referenzkategorie.
-
Beispiel:
- Angenommen, es gibt drei Kategorien: A, B, und C.
- Wenn A die Referenzkategorie ist:
- A:
- B:
- C:
-
Interpretation:
- Die Koeffizienten der kodierten Variablen zeigen die Abweichung jeder Kategorie von der Referenzkategorie.
Variablenselektion
Variablenselektion
- Definition: Methoden zur Auswahl relevanter Prädiktoren, die Überanpassung vermeiden und die Modellparsimony fördern.
Methoden der Variablenselektion
-
Schrittweise Regression:
- Definition: Eine Methode, bei der Prädiktoren schrittweise in das Modell aufgenommen oder daraus entfernt werden, basierend auf bestimmten Kriterien (z.B. p-Wert).
- Vorgehen:
- Vorwärtsselektion: Beginnt mit keinem Prädiktor und fügt schrittweise Prädiktoren hinzu, die das Modell am meisten verbessern.
- Rückwärtselimination: Beginnt mit allen möglichen Prädiktoren und entfernt schrittweise diejenigen, die das Modell am wenigsten verbessern.
- Schrittweise Selektion: Kombination aus Vorwärts- und Rückwärtsselektion.
- Vorteil: Identifiziert relevante Prädiktoren effizient.
-
Lasso-Regression:
- Definition: Eine Regularisierungsmethode, die sowohl zur Variablenselektion als auch zur Schrumpfung der Koeffizienten verwendet wird.
- Formel:
- : Regularisierungsparameter
- : Koeffizienten der Prädiktoren
- Vorteil: Kann irrelevante Prädiktoren auf genau Null setzen, wodurch eine klare Auswahl relevanter Prädiktoren ermöglicht wird.
-
Ridge-Regression:
- Definition: Eine Regularisierungsmethode, die zur Schrumpfung der Koeffizienten verwendet wird, um Multikollinearität zu reduzieren und Überanpassung zu vermeiden.
- Formel:
- : Regularisierungsparameter
- : Koeffizienten der Prädiktoren
- Vorteil: Stabilisiert die Schätzungen, besonders bei hoher Multikollinearität.
-
Andere Techniken:
- Elastic Net: Kombination aus Lasso- und Ridge-Regression.
- Informationskriterien (AIC, BIC): Auswahl der Modelle basierend auf Informationskriterien, die sowohl Anpassungsgüte als auch Modellkomplexität berücksichtigen.
Weitere Tests
Ceteris Paribus
- Definition: Dieser Ansatz analysiert den Effekt einer einzelnen Variablen, während alle anderen Variablen konstant gehalten werden.
- Zweck: Verständnis, wie Veränderungen einer Variablen die abhängige Variable beeinflussen.
- Vorgehen:
- Konstant halten: Alle anderen unabhängigen Variablen werden konstant gehalten.
- Veränderung analysieren: Die Wirkung der Veränderung der betrachteten Variablen auf die abhängige Variable wird beobachtet.
- Beispiel:
- In einer Studie zur Auswirkung des Einkommens auf den Konsum wird der Effekt des Einkommens untersucht, während Faktoren wie Alter, Geschlecht und Bildungsniveau konstant gehalten werden.
- Interpretation:
- Direkter Effekt: Zeigt den direkten Einfluss einer Variablen auf die abhängige Variable.
- Einflussanalyse: Erleichtert die Analyse der kausalen Beziehungen zwischen Variablen.