Aufgabe 1
Nach konservativen Modellrechnungen von vor einigen Jahren lag die Prävalenz von HIV-Infizierten unter heterosexuellen deutschen Bürgern bei 0,1% (Dt. Ärzteblatt 85, Heft 37). Für Vorsorgeuntersuchungen steht ein HIV-Test mit einer Sensitivität von 0,98 und einer Spezifität von 0,99 zur Verfügung.
a) Erstellen Sie eine Kontingenztafel mit den erwarteten Häufigkeiten unter diesen Annahmen auf der Grundlage einer Stichprobe von 1.000.000 heterosexuellen Bürgern.
b) Berechnen Sie sowohl den positiven, als auch den negativen prädiktiven Wert. Interpretieren Sie das Ergebnis.
Positiver prädiktiver Wert
- Man setze ein:
Negativer prädiktiver Wert
- Man setze ein:
❓ Frage:
Ist es in Ordnung, wenn ich bei der Berechnung des NPV anstelle von verwende?
Aufgabe 2
Appleton et al. (1996) untersuchten den Zusammenhang zwischen Rauchgewohnheiten und 20-Jahres Überleben. Die unten stehende Tabelle zeigt die Daten getrennt für verschiedene Altersgruppen.
Um Berechnungen zu erleichtern sind zusätzlich die Produkte der Diagonal- und Antidiagonalelemente der jeweiligen Vierfeldertafeln angegeben.
bezeichnet dabei den Eintrag in der -ten Zeile und -ten Spalte der -ten Vierfeldertafel.
Als Markdown Tabelle:
Altersgruppe | Nicht-Raucher | Raucher | ||
---|---|---|---|---|
18 - 24 Jahre | Nicht verstorben: 61 Verstorben: 1 | Nicht verstorben: 53 Verstorben: 2 | 122 | 53 |
25 - 34 Jahre | Nicht verstorben: 152 Verstorben: 5 | Nicht verstorben: 121 Verstorben: 3 | 456 | 605 |
35 - 44 Jahre | Nicht verstorben: 114 Verstorben: 7 | Nicht verstorben: 95 Verstorben: 14 | 1596 | 665 |
45 - 54 Jahre | Nicht verstorben: 66 Verstorben: 12 | Nicht verstorben: 103 Verstorben: 27 | 1782 | 1236 |
55 - 64 Jahre | Nicht verstorben: 81 Verstorben: 40 | Nicht verstorben: 64 Verstorben: 51 | 4131 | 2560 |
65 - 74 Jahre | Nicht verstorben: 28 Verstorben: 101 | Nicht verstorben: 7 Verstorben: 29 | 812 | 707 |
über 75 Jahre | Nicht verstorben: 0 Verstorben: 64 | Nicht verstorben: 0 Verstorben: 13 | 0 | 0 |
gesamt | Nicht verstorben: 502 Verstorben: 230 | Nicht verstorben: 443 Verstorben: 139 | 69778 | 101890 |
Odds Ratio kurze Wiederholung
Odds Ratio misst die Stärke eines Zusammenhangs von zwei Merkmalen, indem diese miteinander verglichen werden.
Wird wie folgt berechnet:
oder:
oder:
(a) Schätzen Sie das unadjustierte Odds Ratio zur Quantifizierung des Zusammenhangs zwischen Rauchen und Überleben.
gesamt | Nicht verstorben: 502 Verstorben: 230 | Nicht verstorben: 443 Verstorben: 139 | 69778 | 101890 |
---|
Mit Formel
Warum erhalte ich zwei verschiedene Ergebnisse?
Ich habe das unadjustierte Odds Ratio zur Quantifizierung des Zusammenhangs zwischen Rauchen und Überleben auf zwei unterschiedliche Arten berechnet:
- Mit relativen Häufigkeiten:
- Mit der Formel für :
Warum führen diese beiden Ansätze zu unterschiedlichen Ergebnissen? Was mache ich falsch?
(b) Berechnen Sie den Mantel-Haenszel-Schätzer und vergleichen Sie mit dem unadjustierten Schätzer aus Teilaufgabe (a).
Hinweis: Der Mantel-Haenszel-Schätzer bei G Strata berechnet sich über
Altersgruppe | Nicht-Raucher | Raucher | ||
---|---|---|---|---|
18 - 24 Jahre | Nicht verstorben: 61 Verstorben: 1 | Nicht verstorben: 53 Verstorben: 2 | 122 | 53 |
25 - 34 Jahre | Nicht verstorben: 152 Verstorben: 5 | Nicht verstorben: 121 Verstorben: 3 | 456 | 605 |
35 - 44 Jahre | Nicht verstorben: 114 Verstorben: 7 | Nicht verstorben: 95 Verstorben: 14 | 1596 | 665 |
45 - 54 Jahre | Nicht verstorben: 66 Verstorben: 12 | Nicht verstorben: 103 Verstorben: 27 | 1782 | 1236 |
55 - 64 Jahre | Nicht verstorben: 81 Verstorben: 40 | Nicht verstorben: 64 Verstorben: 51 | 4131 | 2560 |
65 - 74 Jahre | Nicht verstorben: 28 Verstorben: 101 | Nicht verstorben: 7 Verstorben: 29 | 812 | 707 |
über 75 Jahre | Nicht verstorben: 0 Verstorben: 64 | Nicht verstorben: 0 Verstorben: 13 | 0 | 0 |
gesamt | Nicht verstorben: 502 Verstorben: 230 | Nicht verstorben: 443 Verstorben: 139 | 69778 | 101890 |
Für den Zähler:
Für den Nenner:
Warum die Gesamtzeile nicht verwendet wird
Die Gesamtzeile ignoriert die Schichtung der Daten (z. B. Altersgruppen) und führt zu einem unadjustierten Odds Ratio, das mögliche Verzerrungen durch Störvariablen wie Alter nicht berücksichtigt. Der Mantel-Haenszel-Schätzer hingegen kontrolliert diese Verzerrungen, indem er die Odds Ratios für jede Schicht separat berechnet und kombiniert.
Berechnung des Mantel-Haenszel-Schätzers:
Einsetzen der Werte:
Der Wert zeigt, dass Raucher im Vergleich zu Nicht-Rauchern eine 47,3 % höhere Wahrscheinlichkeit haben, nicht zu überleben, auch wenn Altersunterschiede berücksichtigt werden.
Beziehung zwischen Mantel-Haenszel-Schätzer und Chi-Quadrat-Test
- Sind der Mantel-Haenszel-Schätzer und der Chi-Quadrat-Test das gleiche?
- Wie unterscheiden sich die beiden Verfahren in ihrer Zielsetzung und Anwendung?
- Wann würde man den Mantel-Haenszel-Schätzer verwenden?
- Wann ist der Chi-Quadrat-Test besser geeignet?
Aufgabe 3
(a) Erzeugen Sie eine gleichverteilte Variable und eine binomialverteilte Variable mit . Erzeugen Sie Daten für eine Regression, indem Sie diese simulierten Daten benutzen:
Der Plot zeigt den Einfluss von (gleichverteilte Variable) auf die Zielvariable , wobei die Kategorien von ( und ) farblich unterschieden werden.
Beobachtungen:
- Für (orange Punkte) ist der Einfluss von auf stärker, was durch die höhere Streuung nach oben sichtbar wird.
- Für (blaue Punkte) bleibt relativ niedrig, und der Anstieg mit ist weniger stark.
- Die gestrichelte rote Linie zeigt den linearen Trend, der unabhängig von den Einfluss von auf beschreibt.
Das Zusammenspiel von und moduliert den Einfluss auf erheblich.
Code
Hinweis: Scatterplot mit ggplot2
Der folgende Code erstellt einen Scatterplot, der die Beziehung zwischen (gleichverteilte Variable) und (Zielvariable) visualisiert. wird farblich unterschieden, um dessen Einfluss auf die Modulation von zu zeigen. Der Plot enthält:
- Farbliche Kodierung der Kategorien von ( in hellblau und in orange).
- Eine gestrichelte rote Trendlinie, die den linearen Zusammenhang zwischen und darstellt.
- Titel und Untertitel für bessere Verständlichkeit.
(b) Berechnen Sie zwei Regressionsmodelle: Ein naives Modell (nur ) und ein volles Modell, welches den Zusammenhang korrekt darstellt. Visualisieren Sie die Daten zusammen mit den Regressionsgeraden.
Code für die Modelle:
(c) Um was handelt es sich bei der Variable ?
Die Variable ist eine kategoriale Variable, die zwei Gruppen unterscheidet ( und ). Sie moduliert den Einfluss von auf , insbesondere durch die Wechselwirkung . Ihre Einbeziehung ist essentiell, um den vollen Zusammenhang zu modellieren.
(d) Simulieren Sie Daten mit dem Code.
Der gegebene Code ist korrekt und simuliert die Daten. Für konsistentere Namen und eine bessere Lesbarkeit sollte der Code wie folgt angepasst werden:
(e) Rechnen Sie ein einfaches Regressionsmodell (nur ).
Dieses Modell ignoriert die Modulation durch und die Wechselwirkung , was zu verzerrten Schätzungen führen kann.
(f) Berücksichtigen Sie nun die Variable in Ihrem Regressionsmodell auf geeignete Weise. Um was handelt es sich bei der Variable ?
Das volle Regressionsmodell berücksichtigt sowie die Wechselwirkung :
ist eine kategoriale Variable, die den Einfluss von auf moduliert. Die Wechselwirkungsterm zeigt, dass der Effekt von auf stark von der Kategorie von abhängt.