Einführung in die medizinische Biometrie: Statistische Modellierung
Übersicht
Diese umfassende Zusammenfassung behandelt die wesentlichen Inhalte der Vorlesungsfolien zur statistischen Modellierung im Rahmen der medizinischen Biometrie. Sie richtet sich an Studierende und bietet ausführliche Erklärungen, praktische Beispiele sowie wichtige mathematische Formeln in MathJax. Die behandelten Themen umfassen:
- Adjustierung für Confounder
- Statistische Modelle
- Lineare Regression
- Logistische Regression
- Poisson-Regression
- Überlebenszeitanalyse
- Bias und Varianz in der statistischen Modellierung
- Kausalität und kausale Inferenz
1. Adjustierung für Confounder
Definitionen
-
Confounder (Störfaktor): Eine Variable, die sowohl mit der Exposition (Ursache) als auch mit dem Outcome (Wirkung) assoziiert ist und dadurch eine verfälschte Beziehung zwischen diesen beiden Variablen erzeugt.
-
Unadjustierter Zusammenhang: Der Zusammenhang zwischen zwei Variablen, der ohne Berücksichtigung von Confoundern geschätzt wird. Dieser kann durch Confounder verzerrt sein.
-
Adjustierter Zusammenhang: Der Zusammenhang zwischen zwei Variablen, der unter Berücksichtigung von mindestens einer zusätzlichen Variable (Confounder) geschätzt wird. Ziel ist es, die verzerrende Wirkung der Confounder zu kontrollieren.
Umgang mit Confoundern
Während der Studienplanung:
-
Randomisierung: Zufällige Zuteilung von Studienteilnehmern zu Behandlungsgruppen, um sicherzustellen, dass Confounder gleichmäßig verteilt sind. Dies minimiert die Verzerrung durch unbeabsichtigte Störfaktoren.
-
Ausschluss: Entfernen von Studienteilnehmern, die bestimmte Confounder aufweisen, um deren Einfluss zu eliminieren.
-
Matching: Paarung von Studienteilnehmern in verschiedenen Gruppen mit ähnlichen Werten der Confounder. Dadurch wird die Verteilung der Confounder zwischen den Gruppen ausgeglichen.
Während der Datenanalyse:
-
Stratifizierung: Aufteilung der Daten in homogene Subgruppen basierend auf den Confoundern und Analyse innerhalb dieser Subgruppen.
-
Regression: Einbeziehung von Confoundern als Kovariablen in Regressionsmodelle, um deren Einfluss zu kontrollieren und den adjustierten Zusammenhang zu schätzen.
-
Standardisierung: Anpassung der Daten an eine Referenzpopulation, um Unterschiede in den Confoundern auszugleichen.
-
Propensity-Score-Methoden: Schätzung der Wahrscheinlichkeit einer Behandlung basierend auf den Confoundern und Anpassung der Analyse entsprechend, um verzerrende Effekte zu minimieren.
Beispiel: Kaviar als Risikofaktor
-
Vorhersagemodell: Angenommen, wir möchten vorhersagen, ob eine Person Millionär wird. Ein möglicher Prädiktor könnte der Kaviarkonsum sein. Allerdings könnte dieser Zusammenhang durch Confounder wie das Vermögen der Eltern beeinflusst werden.
-
Prospektive Studie: Personen mit sehr reichen Eltern haben möglicherweise einen hohen Kaviarkonsum und erhalten später ein großes Erbe. Hier könnte das Elternvermögen als Confounder wirken, der sowohl den Kaviarkonsum als auch die Wahrscheinlichkeit, Millionär zu werden, beeinflusst.
-
Randomisierte Studie: Um den kausalen Effekt des Kaviarkonsums zu testen, könnten Personen zufällig einer Gruppe zugeteilt werden, die einen Teil ihres Einkommens in Kaviar investiert, und einer Gruppe, die Kaviar vermeidet. Ein inverser Effekt könnte beobachtet werden, wenn der Kaviarkonsum die Studienteilnehmer finanziell belastet und sie in den Bankrott treibt.
2. Statistische Modelle
Lineare Regression
Ziel: Bestimmung einer linearen Funktion , die den Zusammenhang zwischen einer unabhängigen Variable und einer abhängigen Variable beschreibt.
Modell:
wobei der Fehlerterm ist.
Schätzung der Parameter: Die Parameter und werden mittels der Methode der kleinsten Quadrate (Kleinste-Quadrate-Methode) geschätzt, indem die Summe der quadratischen Abweichungen (Residuen) minimiert wird:
Formeln:
wobei und die Mittelwerte der unabhängigen und abhängigen Variablen sind.
Bewertung des Modells: Das Bestimmtheitsmaß gibt an, welcher Anteil der Varianz der abhängigen Variable durch die unabhängige Variable erklärt wird.
wobei die erklärte Summe der Quadrate und die totale Summe der Quadrate ist.
Annahmen:
- Erwartungswert der Fehler: für alle .
- Homoskedastizität: Die Varianz der Fehlerterme ist konstant: für alle .
- Unabhängigkeit der Fehler: für .
- Normalverteilung der Residuen: für alle .
Beispiel: Untersuchung des Zusammenhangs zwischen Körpergewicht (in kg) und Alter (in Jahren) bei Studierenden. Hier könnte das Modell wie folgt aussehen:
Durch die Schätzung der Parameter und lässt sich vorhersagen, wie sich das Körpergewicht mit dem Alter verändert.
Logistische Regression
Ziel: Modellierung der Wahrscheinlichkeit eines binären Outcomes (z.B. Erkrankung ja/nein) basierend auf Kovariablen .
Modell:
Dies kann auch als logistische Funktion dargestellt werden:
Logit-Funktion: Die Logit-Funktion (Log-Odds) transformiert die Wahrscheinlichkeit in den logistischen Raum:
Interpretation der Koeffizienten:
- : Höhere Werte von erhöhen die Wahrscheinlichkeit von .
- : Höhere Werte von verringern die Wahrscheinlichkeit von .
- : Das Odds Ratio für . Ein zeigt an, dass höhere Werte von mit höheren Odds für verbunden sind, und umgekehrt.
Beispiel: Untersuchung des Zusammenhangs zwischen pränataler Behandlung und Säuglingssterblichkeit, adjustiert für die Klinik als Confounder.
Angenommen, wir untersuchen, ob eine längere pränatale Behandlung die Säuglingssterblichkeit beeinflusst. Das logistische Modell könnte wie folgt aussehen:
Hierbei steht für die Dauer der pränatalen Behandlung und für die Klinik (A oder B).
Odds Ratio berechnen:
Zum Beispiel, wenn , dann ist das Odds Ratio:
Dies bedeutet, dass die Chance auf Säuglingssterblichkeit bei längerer pränataler Behandlung um den Faktor 0.354 geringer ist als bei kürzerer Behandlung, nach Adjustierung für die Klinik.
Poisson-Regression
Ziel: Modellierung der Anzahl von Ereignissen (z.B. Krankheitsfälle) basierend auf Kovariablen und Personenzeit.
Modell: Die Poisson-Regression wird häufig verwendet, um Inzidenzraten zu modellieren. Das Modell lautet:
wobei die erwartete Anzahl von Ereignissen für das -te Individuum ist.
Wahrscheinlichkeitsfunktion der Poisson-Verteilung:
wobei die Personenzeit darstellt.
Schätzung der Parameter: Die Parameter werden mittels Maximum-Likelihood-Schätzung geschätzt.
Beispiel: Vergleich der Inzidenzraten von Herz-Kreislauf-Erkrankungen bei sportlich aktiven und inaktiven Personen.
Angenommen, wir möchten den Einfluss von sportlicher Aktivität auf die Inzidenz von Herz-Kreislauf-Erkrankungen untersuchen. Das Modell könnte wie folgt aussehen:
wobei eine binäre Variable ist (1 = sportlich aktiv, 0 = inaktiv).
Schätzung der Inzidenzraten:
wobei die Anzahl der beobachteten Ereignisse und die Gesamtpersonenzeit ist.
Verhältnis der Inzidenzraten (Rate Ratio):
wobei die Inzidenzrate der sportlich aktiven Gruppe und die Inzidenzrate der inaktiven Gruppe ist.
Überlebenszeitanalyse
Ziel: Untersuchung der Zeit bis zum Eintreten eines Ereignisses (z.B. Tod, Krankheitsbeginn).
Wichtige Konzepte:
-
Überlebensfunktion : Gibt die Wahrscheinlichkeit an, dass ein Individuum bis zum Zeitpunkt überlebt.
wobei die Wahrscheinlichkeitsdichtefunktion und die Verteilungsfunktion ist.
-
Hazard-Funktion : Die bedingte Wahrscheinlichkeit, dass das Ereignis zum Zeitpunkt eintritt, gegeben, dass es bis dahin nicht eingetreten ist.
Kaplan-Meier-Schätzer:
- Eine nicht-parametrische Methode zur Schätzung der Überlebensfunktion.
- Berücksichtigt Zensierungen, bei denen das genaue Eintreten des Ereignisses nicht beobachtet wurde.
Proportional Hazards Modell (Cox-Modell):
wobei die Basishazard-Funktion ist und die Kovariablen sind.
Annahmen:
- Proportionalität: Die Hazard-Raten der verschiedenen Gruppen bleiben über die Zeit konstant.
- Unabhängigkeit der Überlebenszeiten: Die Überlebenszeiten sind unabhängig von den Zensierungszeiten.
3. Bias und Varianz in der statistischen Modellierung
Bias-Varianz-Tradeoff
-
Bias (Verzerrung): Systematische Abweichung der Schätzungen von den wahren Werten. Ein hoher Bias kann zu untererfüllten Modellen (Underfitting) führen.
-
Varianz: Streuung der Schätzungen um den erwarteten Wert. Eine hohe Varianz kann zu überangepassten Modellen (Overfitting) führen.
Tradeoff: Es besteht ein Zielkonflikt zwischen Bias und Varianz. Ein Modell mit geringem Bias kann eine hohe Varianz haben (Overfitting), während ein Modell mit geringer Varianz einen hohen Bias aufweisen kann (Underfitting).
Grafische Darstellung:
-
Underfitting: Einfaches Modell, das die Daten nicht gut beschreibt. Hoher Bias, geringe Varianz.
-
Overfitting: Komplexes Modell, das die Trainingsdaten zu genau beschreibt und auf neue Daten schlecht generalisiert. Geringer Bias, hohe Varianz.
Kreuzvalidierung: Methode zur Bewertung der Modellgüte durch Aufteilung der Daten in Trainings- und Testdatensätze. Dies hilft, das richtige Gleichgewicht zwischen Bias und Varianz zu finden und ein Modell zu wählen, das gut generalisiert.
4. Kausalität und kausale Inferenz
Definitionen
- Kausalzusammenhang: Eine Variable beeinflusst direkt eine andere Variable .
- Assoziation: Ein statistischer Zusammenhang zwischen zwei Variablen, ohne dass eine Kausalität vorliegt. Assoziationen können durch Confounder, direkte oder indirekte Effekte entstehen.
Voraussetzungen für kausale Inferenz
Um kausale Effekte identifizieren zu können, müssen bestimmte Bedingungen erfüllt sein:
-
Konsistenz: Der beobachtete Outcome entspricht dem potentiellen Outcome unter dem tatsächlich angewandten Treatment.
Das bedeutet, der beobachtete Outcome ist gleich dem potentiellen Outcome unter dem tatsächlich angewandten Treatment.
-
Exchangeability: Potentielle Outcomes sind unabhängig von der Treatment-Zuteilung .
-
Ignorability (Unconfoundedness): Potentielle Outcomes sind unabhängig von gegeben die Kovariablen .
Das bedeutet, dass es keine unbeobachteten Störfaktoren gibt, die sowohl als auch beeinflussen.
Bradford Hill Kriterien
Sir Austin Bradford Hill formulierte neun Kriterien, die hilfreich, aber keineswegs notwendig oder ausreichend sind, um einen kausalen Zusammenhang zwischen einer Exposition und einer Erkrankung zu deklarieren:
-
Stärke des Zusammenhangs: Starke Assoziationen sind überzeugender als schwache.
-
Konsistenz: Der Zusammenhang sollte in verschiedenen Studien und Settings reproduzierbar sein.
-
Spezifität: Die Exposition sollte hauptsächlich mit einem einzigen Outcome assoziiert sein.
-
Zeitliche Folge: Die Exposition muss der Erkrankung zeitlich vorausgehen.
-
Dosis-Wirkungs-Beziehung: Eine stärkere Exposition sollte zu einem höheren Risiko führen.
-
Plausibilität: Es sollte eine plausible biologische Erklärung für den Zusammenhang geben.
-
Stimmigkeit: Der Zusammenhang sollte keinen Widerspruch zu bestehenden wissenschaftlichen Erkenntnissen aufweisen.
-
Experimentelle Evidenz: Interventionen, die die Exposition verändern, sollten den Outcome beeinflussen.
-
Analogie: Ähnliche Expositionen sollten ähnliche Effekte haben.
Methoden der kausalen Inferenz
-
Randomisierte Experimente: Der Goldstandard zur Feststellung kausaler Zusammenhänge durch zufällige Zuteilung von Teilnehmern zu Behandlungsgruppen.
-
Beobachtungsstudien: Methoden wie Matching, Propensity Scores und Instrumentvariablen werden eingesetzt, um Confounder zu kontrollieren und kausale Effekte zu schätzen.
-
Counterfactuals: Vergleich von potentiellen Outcomes unter verschiedenen Behandlungsbedingungen (z.B. vs. ).
Beispiel für kausale Inferenz: Einfluss von Rauchen auf die Sterblichkeit
Fragestellung: Erhöht Rauchen die Sterblichkeit?
Ansatz:
- Randomisierte Studie: Es ist ethisch nicht vertretbar, Personen zufällig dem Rauchen auszusetzen oder nicht.
- Beobachtungsstudie: Verwenden von Methoden wie Matching oder Propensity Scores, um Confounder wie Alter, Geschlecht, sozioökonomischer Status etc. zu kontrollieren.
Analyse:
- Logistische Regression: Modellierung der Sterblichkeit als Outcome und Rauchen als Exposition, adjustiert für Confounder.
- Interpretation: Das Odds Ratio für Rauchen gibt an, wie stark Rauchen die Sterblichkeit beeinflusst, nachdem Confounder kontrolliert wurden.
Wichtige Formeln
Lineare Regression
Schätzung der Parameter durch Kleinste-Quadrate:
Bestimmtheitsmaß :
Logistische Regression
Odds Ratio:
Wahrscheinlichkeitsfunktion:
Poisson-Regression
Wahrscheinlichkeitsfunktion:
Likelihood-Funktion:
Maximum-Likelihood-Schätzer:
Überlebenszeitanalyse
Überlebensfunktion:
Hazard-Funktion:
Zusammenfassung
Die statistische Modellierung in der medizinischen Biometrie umfasst eine Vielzahl von Methoden zur Analyse und Interpretation von Daten. Die Adjustierung für Confounder ist entscheidend, um valide Schlussfolgerungen zu ziehen und kausale Effekte korrekt zu schätzen. Unterschiedliche Regressionsmodelle ermöglichen die Untersuchung verschiedener Arten von Outcomes, sei es kontinuierliche Variablen, binäre Outcomes oder Zählvariablen. Die Überlebenszeitanalyse berücksichtigt zusätzlich die Zeit bis zum Eintreten eines Ereignisses und ist besonders relevant in medizinischen Studien. Ein tiefes Verständnis von Bias und Varianz sowie kausalen Zusammenhängen ist essenziell, um robuste und zuverlässige Ergebnisse zu erzielen.
Diese Zusammenfassung bietet einen detaillierten Überblick über die wesentlichen Aspekte der statistischen Modellierung in der medizinischen Biometrie. Für weiterführende mathematische Herleitungen und spezifische Anwendungsbeispiele sollten die jeweiligen Kapitel der Vorlesungsfolien sorgfältig studiert werden.
Weiterführende Literatur
- ”Biometrie” von Peter Bühlmann und Sara van de Geer: Ein umfassendes Lehrbuch, das tiefgehende Erklärungen zu statistischen Methoden in der Biometrie bietet.
- ”Applied Logistic Regression” von David W. Hosmer Jr., Stanley Lemeshow und Rodney X. Sturdivant: Ein praktisches Werk zur logistischen Regression mit vielen Beispielen.
- ”Survival Analysis: A Self-Learning Text” von David G. Kleinbaum und Mitchel Klein: Ein praxisorientiertes Buch zur Überlebenszeitanalyse.
- ”Modern Epidemiology” von Kenneth J. Rothman, Sander Greenland und Timothy L. Lash: Ein Standardwerk für epidemiologische Methoden und kausale Inferenz.
Praktische Anwendung in R
Für die Durchführung statistischer Modelle und Analysen ist die Software R ein mächtiges Werkzeug. Hier einige grundlegende Befehle für die beschriebenen Modelle: