📌 Statistische Modellierung – Cheat Sheet
🔍 1. Einführung in die statistische Modellierung
- Statistische Modelle sind mathematische Darstellungen von realen Phänomenen zur Beschreibung von Zusammenhängen zwischen Variablen.
- Ziel: Identifikation, Schätzung und Interpretation von Zusammenhängen zwischen einer abhängigen Variablen () und einer oder mehreren unabhängigen Variablen ().
Hauptbestandteile eines statistischen Modells
- Strukturelle Komponente: Zusammenhang zwischen den Variablen ().
- Stochastische Komponente: Modellierung zufälliger Fehler ().
- Schätzverfahren: Methoden zur Parameterschätzung.
⚠️ 2. Adjustierung für Confounder
- Unadjustierter Zusammenhang: Berechnung ohne Berücksichtigung anderer Einflussgrößen.
- Adjustierter Zusammenhang: Kontrolle von Confoundern durch verschiedene Methoden.
Strategien zur Kontrolle von Confoundern:
-
Während der Studienplanung:
- Randomisierung: Zufällige Zuweisung zur Experimental- oder Kontrollgruppe.
- Matching: Vergleichbare Gruppen mit gleichen Confounder-Werten bilden.
- Ausschluss: Entfernen von Teilnehmern mit bestimmten Confounder-Werten.
-
Während der Datenanalyse:
- Stratifizierung: Aufteilung der Daten in Gruppen nach Confoundern.
- Regression: Statistische Modellierung zur Adjustierung für Confounder.
- Standardisierung: Berechnung adjustierter Raten.
- Propensity Score Matching (PSM): Verwendung von Matching-Techniken.
📊 3. Lineare Regression
Einfaches lineares Modell:
- : Achsenabschnitt (Intercept).
- : Steigung (Slope), beschreibt den Einfluss von auf .
- : Fehlerterm (Residuen).
Schätzmethoden:
- Methode der kleinsten Quadrate (OLS):
- Varianzzerlegung:
Güte des Modells (Bestimmtheitsmaß ):
- gibt den Anteil der durch das Modell erklärten Variation an.
📉 4. Logistische Regression
- Modell für binäre abhängige Variablen ().
- Logit-Funktion:
- Umformulierung zur Wahrscheinlichkeitsfunktion:
Interpretation von Koeffizienten () als Odds Ratios (OR):
- : Höheres Risiko.
- : Geringeres Risiko.
Multiples logistische Modell mit Confoundern:
📈 5. Poisson-Regression (Zählmodelle)
-
Modell für Anzahl von Ereignissen in einer bestimmten Zeitspanne.
-
Modellform:
mit als erwartete Anzahl der Ereignisse.
-
Likelihood-Funktion:
-
Schätzung der Inzidenzraten:
mit als Anzahl der Fälle und als Personenzeit.
📊 6. Überlebenszeitanalyse (Survival Analysis)
-
Modellierung der Zeit bis zum Eintreten eines Ereignisses (z. B. Tod, Rückfall).
-
Kaplan-Meier-Schätzer:
wobei die Anzahl der Ereignisse und die Anzahl der Risiko-Personen zum Zeitpunkt ist.
-
Cox-Proportional-Hazards-Modell:
mit Hazard Ratio (HR):
⚖️ 7. Bias & Varianz in der Modellierung
- Bias (Verzerrung): Systematische Abweichung der Schätzung vom wahren Wert.
- Varianz: Empfindlichkeit der Schätzung gegenüber Stichprobenvariabilität.
Bias-Varianz-Dilemma:
- Hoher Bias, niedrige Varianz → Unteranpassung (Underfitting).
- Niedriger Bias, hohe Varianz → Überanpassung (Overfitting).
📌 8. Fazit
✅ Lineare Regression für metrische Zielgrößen, logistische Regression für binäre Zielgrößen.
✅ Poisson-Regression für Zähldaten, Überlebenszeitanalyse für Zeit-bis-Ereignis-Daten.
✅ Confounder müssen adjustiert werden (Matching, Regression, Propensity Score).
✅ Bias-Varianz-Dilemma beachten: Modellkomplexität sollte optimiert sein.
✅ Odds Ratio (OR), Hazard Ratio (HR) und Inzidenzraten interpretieren.