Aufgabe 1
Aufgabenstellung
Betrachten Sie das Beispiel aus Kapitel 9 (Folien 30-33), in dem es um den Zusam- menhang zwischen dem Auftreten von Endometriumkarzinom und der Einnahme von Östrogenen geht. Gehen Sie zunächst davon aus, dass der unadjustierte Zusammen- hang zwischen dem Auftreten von Endometriumkarzinom und der Einnahme von Östrogenen mittels konditionaler logistischer Regression geschätzt werden soll.
Adjustierter vs. Unadjustierter Zusammenhang – Kurz erklärt
Was ist das?
- Unadjustierter Zusammenhang: Ein einfacher Zusammenhang zwischen zwei Variablen ohne Berücksichtigung von Drittvariablen. Beispiel: Der Zusammenhang zwischen Sport und Gesundheit, ohne andere Einflussfaktoren wie Ernährung oder Alter einzubeziehen.
- Adjustierter Zusammenhang: Ein Zusammenhang, der die Wirkung von Drittvariablen kontrolliert. Beispiel: Der Zusammenhang zwischen Sport und Gesundheit, nachdem der Einfluss von Ernährung und Alter herausgerechnet wurde.
Warum ist das wichtig?
- Unadjustiert: Kann verzerrt sein, da Drittvariablen (z. B. Confounder) nicht berücksichtigt werden.
- Adjustiert: Liefert ein präziseres Bild, indem störende Einflüsse neutralisiert werden.
Beispiel aus der Praxis:
- Unadjustierter Zusammenhang: “Menschen, die regelmäßig Sport treiben, haben weniger Herzprobleme.”
- Adjustierter Zusammenhang: “Nach Kontrolle von Alter, Ernährung und Raucherstatus zeigt sich weiterhin ein Zusammenhang zwischen Sport und Herzgesundheit.”
Typische Fragen
”Ist der unadjustierte Zusammenhang immer falsch?”
→ Nein, er zeigt die rohe Beziehung, kann aber durch Drittvariablen stark verzerrt sein.”Wann ist eine Adjustierung notwendig?”
→ Wenn Drittvariablen den Zusammenhang beeinflussen könnten.Merksatz:
“Unadjustiert ist grob, adjustiert ist genau!” 😉
Fälle → Konrollen →
Anzahl | ||||
---|---|---|---|---|
1 | 0 | 0 | 0 | 0 |
1 | 0 | 0 | 1 | 0 |
1 | 0 | 0 | 1 | 1 |
21 | 1 | 0 | 0 | 0 |
181 | 1 | 0 | 1 | 0 |
1 | 1 | 0 | 0 | 1 |
3 | 1 | 0 | 1 | 1 |
2 | 0 | 1 | 0 | 0 |
1 | 0 | 1 | 1 | 0 |
1 | 0 | 1 | 0 | 1 |
6 | 1 | 1 | 0 | 0 |
4 | 1 | 1 | 1 | 0 |
1 | 1 | 1 | 0 | 1 |
2 | 1 | 1 | 1 | 1 |
a) Likelihood und nicht benötigte Fall-Kontroll-Paare
Stellen Sie die zugehörige Likelihood für die Daten auf. Welche Fall-Kontroll-Paare werden nicht zur Schätzung des Koeffizienten benötigt? Gehen Sie nun davon aus, dass das Vorhandensein einer Krankheit der Gallenblase ein möglicher Confounder ist und mit in das Modell einbezogen werden soll.
Likelihood und nicht benötigte Fall-Kontroll-Paare
Likelihood-Funktion
Für den unadjustierten Zusammenhang (nur Östrogeneinnahme ) lautet die partielle Likelihood der konditionalen logistischen Regression:
Nicht benötigte Fall-Kontroll-Paare
Die folgenden Fall-Kontroll-Paare tragen nicht zur Schätzung von bei, da (kein Kontrast in der Exposition):
Zeile | Fall | Kontrolle | Grund |
---|---|---|---|
1 | (0,0) | (0,0) | Beide unexponiert () |
5 | (1,0) | (1,0) | Beide exponiert () |
8 | (0,1) | (0,0) | Beide unexponiert () |
10 | (0,1) | (0,1) | Beide unexponiert () |
12 | (1,1) | (1,0) | Beide exponiert () |
14 | (1,1) | (1,1) | Beide exponiert () |
Einbezug des Confounders (Gallenblasenerkrankung)
Wird die Gallenblasenerkrankung () als Confounder ins Modell aufgenommen, erweitert sich die Likelihood um einen zusätzlichen Parameter :
Nicht benötigte Paare sind nun nur noch die, bei denen sowohl als auch gilt (z. B. Zeile 1 und 14).
Zusammenfassung
- Die Likelihood wird nur von Paaren mit unterschiedlicher Östrogenexposition bestimmt.
- Beim Adjustieren für Confounder müssen auch Unterschiede im Confounder-Status berücksichtigt werden.
- Die Tabelle zeigt deutlich, dass viele Paare keinen Beitrag leisten – ein typisches Phänomen in gepaarten Studien.
b) Nicht benötigte Paare bei Berücksichtigung eines Confounders Welche Fall-Kontroll-Paare werden nun nicht zur Schätzung benötigt? Begründen Sie.
Paare, die weder in der Exposition noch im Confounder diskordant sind ( und ), tragen nicht zur Schätzung bei.
Die nicht benötigten Paare sind Zeilen 1, 5, 10 und 14, da sowohl als auch gilt.
Korrektur:
- Zeile 1: (0,0) vs. (0,0)
- Zeile 5: (1,0) vs. (1,0)
- Zeile 10: (0,1) vs. (0,1)
- Zeile 14: (1,1) vs. (1,1)
Begründung:
Diese Paare tragen nicht zur Schätzung der Koeffizienten bei, da es keinen Kontrast in den Expositions- oder Confounder-Variablen gibt.
c) Interpretation des R-Outputs
Verwenden Sie den R-Output zur Interpretation der Effekte für Östrogen und Krankheit der Gallenblase (Folie 33). Gibt es einen signifikanten Zusammenhang zwischen dem Auftreten von Endometriumkarzinom und der Einnahme von Östrogenen bzw. zwischen dem Auftreten von Endometriumkarzinom und einer Krankheit der Gallenblase?
Schritt 1: Analyse der Schätzer
Der R-Output der konditionalen logistischen Regression liefert folgende Ergebnisse für die Variablen Östrogen und Gallenblasenerkrankung:
Variable | Coef (β) | exp(coef) (OR) | se(coef) | p-Wert |
---|---|---|---|---|
Estrogen | 2.209 | 9.11 | 0.610 | 0.00029 |
Gallenblase | 0.695 | 2.00 | 0.616 | 0.26000 |
Schritt 2: Interpretation der Effekte
-
Östrogen:
- Odds Ratio (OR): .
- Interpretation: Die Einnahme von Östrogenen ist mit einem 9,11-fach erhöhten Risiko für Endometriumkarzinom assoziiert.
- Signifikanz: Der Effekt ist höchst signifikant ().
- Statistische Schlussfolgerung: Es besteht ein starker positiver Zusammenhang zwischen Östrogeneinnahme und Endometriumkarzinom.
-
Gallenblasenerkrankung:
- OR: .
- Interpretation: Eine Gallenblasenerkrankung ist mit einem 2-fach erhöhten Risiko assoziiert.
- Signifikanz: Der Effekt ist nicht signifikant ().
- Statistische Schlussfolgerung: Nach Adjustierung für Östrogen zeigt sich kein signifikanter Zusammenhang zwischen Gallenblasenerkrankung und Endometriumkarzinom.
Schritt 3: Gesamtmodell-Bewertung
- Likelihood-Ratio-Test:
Der Test für das Gesamtmodell ergibt , was auf eine hohe Modellgüte hinweist.- Interpretation: Das Modell mit beiden Variablen erklärt die Daten signifikant besser als ein Nullmodell ohne Prädiktoren.
Schritt 4: Konfidenzintervalle (KI)
Obwohl nicht direkt im Output angegeben, lassen sich die 95%-KI aus den Standardfehlern berechnen:
-
Östrogen:
- Untergrenze: ,
- Obergrenze: .
- 95%-KI: [2.75, 30.1].
- Interpretation: Das Risiko liegt zwischen 2,75-fach und 30,1-fach erhöht. Das KI enthält nicht den Wert 1 → signifikanter Effekt.
-
Gallenblasenerkrankung:
- Untergrenze: ,
- Obergrenze: .
- 95%-KI: [0.60, 6.70].
- Interpretation: Das KI enthält den Wert 1 → kein signifikanter Effekt.
Zusammenfassung
Variable | Zusammenhang mit Endometriumkarzinom | Signifikanz |
---|---|---|
Östrogen | 9,11-fach erhöhtes Risiko | Ja (p < 0.001) |
Gallenblase | 2,00-fach erhöhtes Risiko | Nein (p = 0.26) |
Fazit:
- Östrogeneinnahme ist ein starker Risikofaktor für Endometriumkarzinom.
- Gallenblasenerkrankung zeigt keinen signifikanten Effekt, nachdem für Östrogen adjustiert wurde.
Aufgabe 2
Aufgabenstellung
In einer Fall-Kontroll-Studie wurden 109 Patienten mit Demenz unter 65 Jahren anhand von Krankenhausprotokollen ermittelt. Jede/r Patient/in wurde einer gesunden Kontrolle vom selben Geschlecht und Alter zugeordnet. Es wurden 37 diskordante Paare gezählt, wovon bei 25 an Demenz erkrankten Patienten bereits Familienmitglieder Demenz hatten. Unter den konkordanten Paaren gab es 6 Paare, bei denen Demenz in der Familie aufgetreten ist.
a)Was ist die Einfluss- und was ist die Zielgröße? Stellen Sie die gematchten Daten in einer geeigneten Kreuztabelle dar.
Einfluss- und Zielgröße – Einfach erklärt
Was ist das?
- Einflussgröße: Die Variable, die einen Effekt auf eine andere Variable ausübt. Beispiel: Studienzeit, die den Lernerfolg beeinflusst.
- Zielgröße: Die Variable, die durch die Einflussgröße beeinflusst wird. Beispiel: Lernerfolg, der von der Studienzeit abhängt.
Warum ist das wichtig?
- Hilft, kausale Zusammenhänge zu verstehen und datenbasiert Entscheidungen zu treffen.
- Ermöglicht eine strukturierte Analyse, z. B. durch Kreuztabellen, die Muster und Beziehungen visualisieren.
Beispiel aus der Praxis:
- Einflussgröße: “Anzahl der Wiederholungen beim Lernen.”
- Zielgröße: “Klausurnote.”
→ Eine Kreuztabelle könnte zeigen, wie häufigere Wiederholungen die Noten verbessern.Typische Fragen
”Sind Ziel- und Einflussgrößen immer klar definiert?”
→ Nicht immer, manchmal hängt es vom Kontext ab.”Wie stellt man die gematchten Daten dar?”
→ Mit einer Kreuztabelle, die die Werte der Einflussgröße und Zielgröße kombiniert, z. B. mit Spalten und Zeilen.Merksatz:
“Die Einflussgröße wirkt, die Zielgröße reagiert!” 😉
- Zielgröße: Auftreten von Demenz (Fall vs. Kontrolle).
- Einflussgröße: Familienanamnese für Demenz (ja/nein).
Gematchte Kreuztabelle (McNemar-Format):
Kontrolle: Exponiert | Kontrolle: Nicht exponiert | |
---|---|---|
Fall: Exponiert | 6 (beide exponiert) | 25 (nur Fall exponiert) |
Fall: Nicht exponiert | 12 (nur Kontrolle exponiert) | 66 (beide nicht exponiert) |
Erklärung:
- 6 Paare: Fall und Kontrolle haben beide eine Familienanamnese.
- 25 Paare: Nur der Fall hat eine Familienanamnese.
- 12 Paare: Nur die Kontrolle hat eine Familienanamnese.
- 66 Paare: Weder Fall noch Kontrolle haben eine Familienanamnese.
Ausführliche Erklärung weil es mich 100 Jahre gebraucht hat es zu verstehen 2 Tage vor der Klausur um 1 Uhr Nachts
1. Grundidee einer gematchten Fall-Kontroll-Studie
- Fälle (Patienten) sind Personen, die das Ereignis aufweisen (hier: Demenz unter 65 Jahren).
- Kontrollen sind ähnliche (gematchte) Personen, die nicht erkrankt sind.
- Innerhalb jedes Paars wird verglichen, ob der Risikofaktor (Exposition) vorliegt oder nicht (hier: Familienstatus in Bezug auf Demenz = „Familienanamnese“).
In unserer Studie wurde für jeden Patienten (Fall) eine Kontrollperson gesucht, die möglichst ähnliche Merkmale hat (z. B. Alter, Geschlecht usw.), aber eben keine Demenz unter 65 Jahren.
2. Was bedeutet „konkordantes“ und „diskordantes“ Paar?
Ein konkordantes Paar liegt vor, wenn beide Personen im Paar denselben Expositionsstatus haben. Das heißt, beide haben entweder eine positive Familienanamnese (JA) oder beide haben keine Familienanamnese (NEIN).
- konkordant – beide JA: Patient hat eine positive Familienanamnese (JA), Kontrolle ebenfalls (JA).
- konkordant – beide NEIN: Patient keine Anamnese (NEIN), Kontrolle ebenfalls keine (NEIN).
Ein diskordantes Paar liegt vor, wenn Patient und Kontrolle unterschiedliche Expositionsstatus haben:
- diskordant (Patient JA, Kontrolle NEIN)
- diskordant (Patient NEIN, Kontrolle JA)
3. Gegebene Zahlen
- Es gibt 72 konkordante Paare gesamt:
- 6 Paare haben beide eine positive Familienanamnese (beide JA)
- 66 Paare haben beide keine Familienanamnese (beide NEIN)
- Es gibt 37 diskordante Paare gesamt:
- 25 Paare: Patient JA, Kontrolle NEIN
- 12 Paare: Patient NEIN, Kontrolle JA
Summe aller Paare = 72 + 37 = 109.
4. Aufbau der 2×2-Tabelle
Wir wollen das Vorhandensein der Familienanamnese in einer Vierfeldertafel darstellen, wobei die Zeilen den Patient (Fall) und die Spalten die Kontrolle repräsentieren.
- Zeilenkategorien (links):
- Patient: Fam.-Anamnese JA
- Patient: Fam.-Anamnese NEIN
- Spaltenkategorien (oben):
- Kontrolle: Fam.-Anamnese JA
- Kontrolle: Fam.-Anamnese NEIN
Somit erhalten wir die „4 Felder“, in denen wir die Anzahl der entsprechenden Paare eintragen.
5. Warum stehen 6 konkordante Paare in „Patient JA / Kontrolle JA“?
Die Zelle „Patient JA / Kontrolle JA“ fasst alle Paare, in denen sowohl der Patient eine positive Familienanamnese hat als auch die Kontrollperson eine positive Familienanamnese hat.
- Da es sich um konkordante Paare handelt (beide haben denselben Status = JA), und uns die Studie sagt, dass genau 6 dieser konkordanten Paare beide JA sind, gehört diese Zahl in die Zelle (Patient: JA | Kontrolle: JA).
Visuell in der Tabelle:
Kontrolle: JA Kontrolle: NEIN Patient: JA 6 ? Patient: NEIN ? ? Warum ist das eindeutig so?
- Die Studienerhebung hat gezählt: 6 Paare, bei denen beide (Patient und Kontrolle) schon Fälle von Demenz in ihrer Familie hatten.
- „Konkordant“ bedeutet ja „übereinstimmend im Status“.
- Der Status lautet in diesem Fall: Fam.-Anamnese JA (Patient) und Fam.-Anamnese JA (Kontrolle).
- Genau diese Situation wird durch „6“ belegt.
6. Auffüllen der restlichen Felder
a) Diskordante Paare
- 25 diskordante Paare, in denen der Patient Fam.-Anamnese JA hat, die Kontrolle aber NEIN.
- ⇒ In die Zelle „(Patient: JA | Kontrolle: NEIN)“ kommen 25.
- 12 diskordante Paare, in denen der Patient Fam.-Anamnese NEIN hat, die Kontrolle aber JA.
- ⇒ In die Zelle „(Patient: NEIN | Kontrolle: JA)“ kommen 12.
b) Konkordante Paare (NEIN)
- Übrig bleiben die konkordanten Paare, bei denen beide keine Familienanamnese haben (NEIN). Laut Angabe sind das 66.
- ⇒ In die Zelle „(Patient: NEIN | Kontrolle: NEIN)“ kommen 66.
Die fertige 2×2-Tabelle sieht so aus:
Kontrolle: JA Kontrolle: NEIN Zeilensumme Patient: JA 6 25 31 Patient: NEIN 12 66 78 Spaltensumme 18 91 109
- Zeilensummen: (6+25=31) für Patient JA, (12+66=78) für Patient NEIN
- Spaltensummen: (6+12=18) für Kontrolle JA, (25+66=91) für Kontrolle NEIN
- Gesamt: 31+78=109 oder 18+91=109 (alle Paare)
Fazit
Die „6 konkordanten Paare“ mit Patient JA / Kontrolle JA sind genau diejenigen, bei denen beide (Patient und Kontrolle) in der Familienanamnese Ja gesagt haben. Die Studie gibt explizit an, dass es 6 Paare gibt, die diesen gemeinsamen Status aufweisen. Deshalb steht diese Zahl in der Vierfeldertafel in der Zeile „Patient: JA“ und in der Spalte „Kontrolle: JA“.
b) Testen Sie, ob es einen Zusammenhang zwischen der Einfluss- und der Zielgröße gibt.
McNemar-Test für gepaarte Daten:
- Teststatistik:
- Kritischer Wert (χ², 1 df, α = 0.05): 3.84.
- Ergebnis: Da , besteht ein signifikanter Zusammenhang (p < 0.05).
c) Schätzen Sie das Odds Ratio und geben Sie ein 95%-Konfidenzintervall für das Odds Ratio an.
- OR für gepaarte Daten:
- 95%-Konfidenzintervall:
- Standardfehler von :
- Intervall für :
Warum benutzt man hier den Logarithmus (ln)? → Konfidenzintervalle – Wann mit und wann ohne Logarithmus?
📊 Konfidenzintervalle – Wann mit und wann ohne Logarithmus?
In der Statistik gibt es beim Konfidenzintervall (KI) verschiedene Vorgehensweisen, abhängig von der Kenngröße, die geschätzt wird. Die wichtigste Unterscheidung lautet:
Differenz-Maße Ratio-Maße Additive Kennzahlen Multiplikative Kennzahlen Beispiele: Mittelwert- oder Anteilsunterschiede Beispiele: Odds Ratio (OR), Relatives Risiko (RR), Hazard Ratio (HR)
🔎 1. Differenz-Maße (ohne Log)
Beispiele
- Mittelwertunterschied:
- Anteilsunterschied:
- Risk Difference:
Warum keine Logarithmus-Transformation?
- Bei additiven Größen (z. B. Mittelwert minus Mittelwert) kann der Standardfehler direkt bestimmt werden.
- Diese Differenzen haben (bei größeren Stichproben) eine annähernd normalverteilte Schätzverteilung.
- Ein typisches KI lautet: Scha¨tzwert±zα/2×SE(Scha¨tzwert).\text{Schätzwert} \pm z_{\alpha/2} \times \mathrm{SE}(\text{Schätzwert}).
- Beispiel: Unterschied im systolischen Blutdruck (mmHg) zwischen zwei Gruppen.
🔄 2. Ratio-Maße (mit Log)
Beispiele
- Odds Ratio:
- Relatives Risiko:
- Hazard Ratio:
Warum Logarithmus?
- Multiplikative Größen (OR, RR, HR) verhalten sich auf der Log-Skala additiv.
- , etc. sind näherungsweise normalverteilt (bei großen Stichproben).
- Der Standardfehler bezieht sich auf die Logarithmus-Skala und ist einfacher zu bestimmen.
- Typische KI-Berechnung:
- schätzen.
- berechnen.
- Standardfehler auf Log-Skala bestimmen: .
- .
- Exponentieren der Grenzen → KI auf OR-Skala.
Beispiel (Odds Ratio in einer gepaarten Fall-Kontroll-Studie):
OR=bc,\mathrm{OR} = \frac{b}{c}, ln(OR)±1,96×1b+1c.\ln(\mathrm{OR}) \pm 1{,}96 \times \sqrt{\frac{1}{b} + \frac{1}{c}}.
Danach Grenzen exponentieren für das finale 95%-KI.
⚠️ Wichtig!
- Differenz? Kein Log nötig (direkte KI-Bildung).
- Verhältnis (Ratio)? Immer Log-Transformation, dann exponentieren.
Faustregel:
- „Additive Differenzen“ → KI ohne Logarithmus
- „Multiplikative Ratios“ → KI auf Log-Skala und anschließend exponentiell zurückrechnen.
🎉 Fazit
Für Odds Ratios berechnet man stets und nicht direkt Standardfehler, da die Verteilung und der SE auf der Log-Skala wesentlich passender sind.
Bei Differenzen (z. B. Mittelwertunterschied, Risikodifferenz) bleibt man auf der Originalskala.
Merksatz:
- Unterschiede → kein Log
- Verhältnisse → Log!
- Exponentierte Grenzen:
- 95%-KI: [1.03, 4.18].
Interpretation:
- Das Risiko für Demenz ist bei positiver Familienanamnese 2,08-fach erhöht.
- Das KI schließt den Wert 1 nicht ein → signifikanter Effekt.
d) Ignorieren Sie nun die Paarbildung und stellen Sie die Daten für die nicht-gematchte Analyse in einer geeigneten Tabelle dar. Schätzen Sie das Odds Ratio für die nicht-gematchte Analyse. Vergleichen Sie Ihre Ergebnisse.
2x2-Tabelle (ohne Matching):
Fall (n=109) | Kontrolle (n=109) | |
---|---|---|
Exponiert | 31 | 18 |
Nicht exponiert | 78 | 91 |
- OR für nicht-gematchte Daten:
- Vergleich:
- Gematchtes OR: 2,08
- Nicht-gematchtes OR: ≈2,01
- Die Ergebnisse sind nahezu identisch. Das Matching (Alter/Geschlecht) hat kein relevantes Confounding verursacht.