(139/443)/(230/502)

Aufgabe 1

Nach konservativen Modellrechnungen von vor einigen Jahren lag die Prävalenz von HIV-Infizierten unter heterosexuellen deutschen Bürgern bei 0,1% (Dt. Ärzteblatt 85, Heft 37). Für Vorsorgeuntersuchungen steht ein HIV-Test mit einer Sensitivität von 0,98 und einer Spezifität von 0,99 zur Verfügung.

a) Erstellen Sie eine Kontingenztafel mit den erwarteten Häufigkeiten unter diesen Annahmen auf der Grundlage einer Stichprobe von 1.000.000 heterosexuellen Bürgern.

b) Berechnen Sie sowohl den positiven, als auch den negativen prädiktiven Wert. Interpretieren Sie das Ergebnis.

Positiver prädiktiver Wert

  • Man setze ein:

Negativer prädiktiver Wert

  • Man setze ein:

Frage:

Ist es in Ordnung, wenn ich bei der Berechnung des NPV anstelle von verwende?


Aufgabe 2

Appleton et al. (1996) untersuchten den Zusammenhang zwischen Rauchgewohnheiten und 20-Jahres Überleben. Die unten stehende Tabelle zeigt die Daten getrennt für verschiedene Altersgruppen.
Um Berechnungen zu erleichtern sind zusätzlich die Produkte der Diagonal- und Antidiagonalelemente der jeweiligen Vierfeldertafeln angegeben.
bezeichnet dabei den Eintrag in der -ten Zeile und -ten Spalte der -ten Vierfeldertafel.

Als Markdown Tabelle:

AltersgruppeNicht-RaucherRaucher
18 - 24 JahreNicht verstorben: 61
Verstorben: 1
Nicht verstorben: 53
Verstorben: 2
12253
25 - 34 JahreNicht verstorben: 152
Verstorben: 5
Nicht verstorben: 121
Verstorben: 3
456605
35 - 44 JahreNicht verstorben: 114
Verstorben: 7
Nicht verstorben: 95
Verstorben: 14
1596665
45 - 54 JahreNicht verstorben: 66
Verstorben: 12
Nicht verstorben: 103
Verstorben: 27
17821236
55 - 64 JahreNicht verstorben: 81
Verstorben: 40
Nicht verstorben: 64
Verstorben: 51
41312560
65 - 74 JahreNicht verstorben: 28
Verstorben: 101
Nicht verstorben: 7
Verstorben: 29
812707
über 75 JahreNicht verstorben: 0
Verstorben: 64
Nicht verstorben: 0
Verstorben: 13
00
gesamtNicht verstorben: 502
Verstorben: 230
Nicht verstorben: 443
Verstorben: 139
69778101890

Odds Ratio kurze Wiederholung

Odds Ratio misst die Stärke eines Zusammenhangs von zwei Merkmalen, indem diese miteinander verglichen werden.

Wird wie folgt berechnet:

oder:

oder:

(a) Schätzen Sie das unadjustierte Odds Ratio zur Quantifizierung des Zusammenhangs zwischen Rauchen und Überleben.

gesamtNicht verstorben: 502
Verstorben: 230
Nicht verstorben: 443
Verstorben: 139
69778101890

Mit Formel

(b) Berechnen Sie den Mantel-Haenszel-Schätzer und vergleichen Sie mit dem unadjustierten Schätzer aus Teilaufgabe (a).

Hinweis: Der Mantel-Haenszel-Schätzer bei G Strata berechnet sich über

AltersgruppeNicht-RaucherRaucher
18 - 24 JahreNicht verstorben: 61
Verstorben: 1
Nicht verstorben: 53
Verstorben: 2
12253
25 - 34 JahreNicht verstorben: 152
Verstorben: 5
Nicht verstorben: 121
Verstorben: 3
456605
35 - 44 JahreNicht verstorben: 114
Verstorben: 7
Nicht verstorben: 95
Verstorben: 14
1596665
45 - 54 JahreNicht verstorben: 66
Verstorben: 12
Nicht verstorben: 103
Verstorben: 27
17821236
55 - 64 JahreNicht verstorben: 81
Verstorben: 40
Nicht verstorben: 64
Verstorben: 51
41312560
65 - 74 JahreNicht verstorben: 28
Verstorben: 101
Nicht verstorben: 7
Verstorben: 29
812707
über 75 JahreNicht verstorben: 0
Verstorben: 64
Nicht verstorben: 0
Verstorben: 13
00
gesamtNicht verstorben: 502
Verstorben: 230
Nicht verstorben: 443
Verstorben: 139
69778101890

Für den Zähler:

Für den Nenner:

Warum die Gesamtzeile nicht verwendet wird

Die Gesamtzeile ignoriert die Schichtung der Daten (z. B. Altersgruppen) und führt zu einem unadjustierten Odds Ratio, das mögliche Verzerrungen durch Störvariablen wie Alter nicht berücksichtigt. Der Mantel-Haenszel-Schätzer hingegen kontrolliert diese Verzerrungen, indem er die Odds Ratios für jede Schicht separat berechnet und kombiniert.

Berechnung des Mantel-Haenszel-Schätzers:

Einsetzen der Werte:

Der Wert zeigt, dass Raucher im Vergleich zu Nicht-Rauchern eine 47,3 % höhere Wahrscheinlichkeit haben, nicht zu überleben, auch wenn Altersunterschiede berücksichtigt werden.


Aufgabe 3

(a) Erzeugen Sie eine gleichverteilte Variable und eine binomialverteilte Variable mit . Erzeugen Sie Daten für eine Regression, indem Sie diese simulierten Daten benutzen:

Der Plot zeigt den Einfluss von (gleichverteilte Variable) auf die Zielvariable , wobei die Kategorien von ( und ) farblich unterschieden werden.

Beobachtungen:

  • Für (orange Punkte) ist der Einfluss von auf stärker, was durch die höhere Streuung nach oben sichtbar wird.
  • Für (blaue Punkte) bleibt relativ niedrig, und der Anstieg mit ist weniger stark.
  • Die gestrichelte rote Linie zeigt den linearen Trend, der unabhängig von den Einfluss von auf beschreibt.

Das Zusammenspiel von und moduliert den Einfluss auf erheblich.

(b) Berechnen Sie zwei Regressionsmodelle: Ein naives Modell (nur ) und ein volles Modell, welches den Zusammenhang korrekt darstellt. Visualisieren Sie die Daten zusammen mit den Regressionsgeraden.

Code für die Modelle:

# Naives Modell (nur x1)
model_naive <- lm(y ~ x1, data = data)
summary(model_naive)
 
# Volles Modell (mit Wechselwirkung x1 * x2)
model_full <- lm(y ~ x1 * x2, data = data)
summary(model_full)
 
# Visualisierung der Regressionsmodelle
ggplot(data, aes(x = x1, y = y, color = as.factor(x2))) +
  geom_point(alpha = 0.7) +
  geom_smooth(method = "lm", aes(group = x2), se = FALSE) +
  labs(
    title = "Regressionsmodelle für y ~ x1 und y ~ x1 * x2",
    subtitle = "Vergleich von naivem und vollem Modell",
    x = "x1",
    y = "y",
    color = "x2"
  ) +
  theme_minimal()

(c) Um was handelt es sich bei der Variable ?

Die Variable ist eine kategoriale Variable, die zwei Gruppen unterscheidet ( und ). Sie moduliert den Einfluss von auf , insbesondere durch die Wechselwirkung . Ihre Einbeziehung ist essentiell, um den vollen Zusammenhang zu modellieren.

(d) Simulieren Sie Daten mit dem Code.

Der gegebene Code ist korrekt und simuliert die Daten. Für konsistentere Namen und eine bessere Lesbarkeit sollte der Code wie folgt angepasst werden:

library(mvtnorm)
set.seed(123)
 
n <- 300
 
# Simulation von x1 und x2
x1 <- runif(n, 0, 1)
x2 <- rbinom(n, 1, 0.5)
 
# Berechnung von y
epsilon <- rnorm(n, 0, 1)
y <- x1 + 2 * x2 + 10 * x1 * x2 + epsilon
 
# Datenframe erstellen
data <- data.frame(x1 = x1, x2 = x2, y = y)

(e) Rechnen Sie ein einfaches Regressionsmodell (nur ).

# Einfaches Modell
model_simple <- lm(y ~ x1, data = data)
summary(model_simple)

Dieses Modell ignoriert die Modulation durch und die Wechselwirkung , was zu verzerrten Schätzungen führen kann.

(f) Berücksichtigen Sie nun die Variable in Ihrem Regressionsmodell auf geeignete Weise. Um was handelt es sich bei der Variable ?

Das volle Regressionsmodell berücksichtigt sowie die Wechselwirkung :

# Volles Modell
model_full <- lm(y ~ x1 * x2, data = data)
summary(model_full)

ist eine kategoriale Variable, die den Einfluss von auf moduliert. Die Wechselwirkungsterm zeigt, dass der Effekt von auf stark von der Kategorie von abhängt.