📌 Statistische Modellierung – Cheat Sheet


🔍 1. Einführung in die statistische Modellierung

  • Statistische Modelle sind mathematische Darstellungen von realen Phänomenen zur Beschreibung von Zusammenhängen zwischen Variablen.
  • Ziel: Identifikation, Schätzung und Interpretation von Zusammenhängen zwischen einer abhängigen Variablen () und einer oder mehreren unabhängigen Variablen ().

Hauptbestandteile eines statistischen Modells

  • Strukturelle Komponente: Zusammenhang zwischen den Variablen ().
  • Stochastische Komponente: Modellierung zufälliger Fehler ().
  • Schätzverfahren: Methoden zur Parameterschätzung.

⚠️ 2. Adjustierung für Confounder

  • Unadjustierter Zusammenhang: Berechnung ohne Berücksichtigung anderer Einflussgrößen.
  • Adjustierter Zusammenhang: Kontrolle von Confoundern durch verschiedene Methoden.

Strategien zur Kontrolle von Confoundern:

  1. Während der Studienplanung:

    • Randomisierung: Zufällige Zuweisung zur Experimental- oder Kontrollgruppe.
    • Matching: Vergleichbare Gruppen mit gleichen Confounder-Werten bilden.
    • Ausschluss: Entfernen von Teilnehmern mit bestimmten Confounder-Werten.
  2. Während der Datenanalyse:

    • Stratifizierung: Aufteilung der Daten in Gruppen nach Confoundern.
    • Regression: Statistische Modellierung zur Adjustierung für Confounder.
    • Standardisierung: Berechnung adjustierter Raten.
    • Propensity Score Matching (PSM): Verwendung von Matching-Techniken.

📊 3. Lineare Regression

Einfaches lineares Modell:

  • : Achsenabschnitt (Intercept).
  • : Steigung (Slope), beschreibt den Einfluss von auf .
  • : Fehlerterm (Residuen).

Schätzmethoden:

  • Methode der kleinsten Quadrate (OLS):
  • Varianzzerlegung:

Güte des Modells (Bestimmtheitsmaß ):

  • gibt den Anteil der durch das Modell erklärten Variation an.

📉 4. Logistische Regression

  • Modell für binäre abhängige Variablen ().
  • Logit-Funktion:
  • Umformulierung zur Wahrscheinlichkeitsfunktion:

Interpretation von Koeffizienten () als Odds Ratios (OR):

  • : Höheres Risiko.
  • : Geringeres Risiko.

Multiples logistische Modell mit Confoundern:


📈 5. Poisson-Regression (Zählmodelle)

  • Modell für Anzahl von Ereignissen in einer bestimmten Zeitspanne.

  • Modellform:

    mit als erwartete Anzahl der Ereignisse.

  • Likelihood-Funktion:

  • Schätzung der Inzidenzraten:

    mit als Anzahl der Fälle und als Personenzeit.


📊 6. Überlebenszeitanalyse (Survival Analysis)

  • Modellierung der Zeit bis zum Eintreten eines Ereignisses (z. B. Tod, Rückfall).

  • Kaplan-Meier-Schätzer:

    wobei die Anzahl der Ereignisse und die Anzahl der Risiko-Personen zum Zeitpunkt ist.

  • Cox-Proportional-Hazards-Modell:

    mit Hazard Ratio (HR):


⚖️ 7. Bias & Varianz in der Modellierung

  • Bias (Verzerrung): Systematische Abweichung der Schätzung vom wahren Wert.
  • Varianz: Empfindlichkeit der Schätzung gegenüber Stichprobenvariabilität.

Bias-Varianz-Dilemma:

  • Hoher Bias, niedrige Varianz → Unteranpassung (Underfitting).
  • Niedriger Bias, hohe Varianz → Überanpassung (Overfitting).

📌 8. Fazit

Lineare Regression für metrische Zielgrößen, logistische Regression für binäre Zielgrößen.
Poisson-Regression für Zähldaten, Überlebenszeitanalyse für Zeit-bis-Ereignis-Daten.
Confounder müssen adjustiert werden (Matching, Regression, Propensity Score).
Bias-Varianz-Dilemma beachten: Modellkomplexität sollte optimiert sein.
Odds Ratio (OR), Hazard Ratio (HR) und Inzidenzraten interpretieren.