(139/443)/(230/502)

Aufgabe 1

Nach konservativen Modellrechnungen von vor einigen Jahren lag die Prävalenz von HIV-Infizierten unter heterosexuellen deutschen Bürgern bei 0,1% (Dt. Ärzteblatt 85, Heft 37). Für Vorsorgeuntersuchungen steht ein HIV-Test mit einer Sensitivität von 0,98 und einer Spezifität von 0,99 zur Verfügung.

a) Erstellen Sie eine Kontingenztafel mit den erwarteten Häufigkeiten unter diesen Annahmen auf der Grundlage einer Stichprobe von 1.000.000 heterosexuellen Bürgern.

HIV \overline{HIV} Gesamt Test positiv 980999010970 Test negativ 20989010989030 Gesamt 10009990001000000

b) Berechnen Sie sowohl den positiven, als auch den negativen prädiktiven Wert. Interpretieren Sie das Ergebnis.

Positiver prädiktiver Wert

PPV = P (Erkrankt ∣ Test positiv) = \frac{P ( Test positiv ∣ Erkrankt ) \cdot P ( Erkrankt )}{P ( Test positiv )}

Man setze ein:

PPV = P (Erkrankt ∣ Test positiv) = \frac{0.98 \cdot 0.001}{0.010970} \approx 0.089335 \approx 8.93%

Negativer prädiktiver Wert

NPV = P (Nicht erkrankt ∣ Test negativ) = \frac{P ( Test negativ ∣ Nicht erkrankt ) \cdot P ( Nicht erkrankt )}{P ( Test negativ )}

Man setze ein:

NPV = P (Nicht erkrankt ∣ Test negativ) = \frac{0.98901 \cdot 0.999}{0.98903} \approx 0.998980 \approx 99.90%

❓ Frage:

Ist es in Ordnung, wenn ich bei der Berechnung des NPV $0.98901$ anstelle von $0.99$ verwende?

Aufgabe 2

Appleton et al. (1996) untersuchten den Zusammenhang zwischen Rauchgewohnheiten und 20-Jahres Überleben. Die unten stehende Tabelle zeigt die Daten getrennt für verschiedene Altersgruppen.
Um Berechnungen zu erleichtern sind zusätzlich die Produkte der Diagonal- und Antidiagonalelemente der jeweiligen Vierfeldertafeln angegeben.
$n_{ij}^{(s)}$ bezeichnet dabei den Eintrag in der $i$ -ten Zeile und $j$ -ten Spalte der $s$ -ten Vierfeldertafel.

Altersgruppe 18 - 24 Jahre 25 - 34 Jahre 35 - 44 Jahre 45 - 54 Jahre 55 - 64 Jahre 65 - 74 Jahre \ddot{u} ber 75 Jahre gesamt Nicht-Raucher Nicht verstorben: 61 Verstorben: 1 Nicht verstorben: 152 Verstorben: 5 Nicht verstorben: 114 Verstorben: 7 Nicht verstorben: 66 Verstorben: 12 Nicht verstorben: 81 Verstorben: 40 Nicht verstorben: 28 Verstorben: 101 Nicht verstorben: 0 Verstorben: 64 Nicht verstorben: 502 Verstorben: 230 Raucher Nicht verstorben: 53 Verstorben: 2 Nicht verstorben: 121 Verstorben: 3 Nicht verstorben: 95 Verstorben: 14 Nicht verstorben: 103 Verstorben: 27 Nicht verstorben: 64 Verstorben: 51 Nicht verstorben: 7 Verstorben: 29 Nicht verstorben: 0 Verstorben: 13 Nicht verstorben: 443 Verstorben: 139 n_{11}^{(s)} \cdot n_{22}^{(s)} 122456159617824131812069778 n_{12}^{(s)} \cdot n_{21}^{(s)} 53605665123625607070101890

Als Markdown Tabelle:

Altersgruppe	Nicht-Raucher	Raucher	$n_{11}^{(s)} \cdot n_{22}^{(s)}$	$n_{12}^{(s)} \cdot n_{21}^{(s)}$
18 - 24 Jahre	Nicht verstorben: 61 Verstorben: 1	Nicht verstorben: 53 Verstorben: 2	122	53
25 - 34 Jahre	Nicht verstorben: 152 Verstorben: 5	Nicht verstorben: 121 Verstorben: 3	456	605
35 - 44 Jahre	Nicht verstorben: 114 Verstorben: 7	Nicht verstorben: 95 Verstorben: 14	1596	665
45 - 54 Jahre	Nicht verstorben: 66 Verstorben: 12	Nicht verstorben: 103 Verstorben: 27	1782	1236
55 - 64 Jahre	Nicht verstorben: 81 Verstorben: 40	Nicht verstorben: 64 Verstorben: 51	4131	2560
65 - 74 Jahre	Nicht verstorben: 28 Verstorben: 101	Nicht verstorben: 7 Verstorben: 29	812	707
über 75 Jahre	Nicht verstorben: 0 Verstorben: 64	Nicht verstorben: 0 Verstorben: 13	0	0
gesamt	Nicht verstorben: 502 Verstorben: 230	Nicht verstorben: 443 Verstorben: 139	69778	101890

Odds Ratio kurze Wiederholung

$A \overline{A} Σ 1 x v x + v 2 y w y + w Σ x + y v + w ∣Σ∣$
Odds Ratio misst die Stärke eines Zusammenhangs von zwei Merkmalen, indem diese miteinander verglichen werden.

Wird wie folgt berechnet:
$\frac{\frac{x}{v}}{\frac{y}{w}}$
oder:
$\frac{\frac{x}{y}}{\frac{v}{w}}$
oder:
$\frac{x \cdot w}{v \cdot y}$

(a) Schätzen Sie das unadjustierte Odds Ratio zur Quantifizierung des Zusammenhangs zwischen Rauchen und Überleben.

Richtige Lösung

Mit $n_{rc}$ Formel
$Odds Ratio = \frac{n _{11}^{(s)} \cdot n _{22}^{(s)}}{n _{12}^{(s)} \cdot n _{21}^{(s)}} = \frac{69778}{101890} \approx 0.6848$

Falsche Lösung (um aus Fehler zu lernen)

gesamt Nicht verstorben: 502
Verstorben: 230 Nicht verstorben: 443
Verstorben: 139 69778 101890
$Odds Ratio = \frac{\frac{230}{502}}{\frac{139}{443}} \approx 1.4602$

(b) Berechnen Sie den Mantel-Haenszel-Schätzer und vergleichen Sie mit dem unadjustierten Schätzer aus Teilaufgabe (a).

Hinweis: Der Mantel-Haenszel-Schätzer bei G Strata berechnet sich über

OR_{M H} = \frac{\sum _{s = 1}^{G} \frac{n _{11}^{(s)} \cdot n _{22}^{(s)}}{n _{\cdot\cdot}^{(s)}}}{\sum _{s = 1}^{G} \frac{n _{12}^{(s)} \cdot n _{21}^{(s)}}{n _{\cdot\cdot}^{(s)}}}

Altersgruppe	Nicht-Raucher	Raucher	$n_{11}^{(s)} \cdot n_{22}^{(s)}$	$n_{12}^{(s)} \cdot n_{21}^{(s)}$
18 - 24 Jahre	Nicht verstorben: 61 Verstorben: 1	Nicht verstorben: 53 Verstorben: 2	122	53
25 - 34 Jahre	Nicht verstorben: 152 Verstorben: 5	Nicht verstorben: 121 Verstorben: 3	456	605
35 - 44 Jahre	Nicht verstorben: 114 Verstorben: 7	Nicht verstorben: 95 Verstorben: 14	1596	665
45 - 54 Jahre	Nicht verstorben: 66 Verstorben: 12	Nicht verstorben: 103 Verstorben: 27	1782	1236
55 - 64 Jahre	Nicht verstorben: 81 Verstorben: 40	Nicht verstorben: 64 Verstorben: 51	4131	2560
65 - 74 Jahre	Nicht verstorben: 28 Verstorben: 101	Nicht verstorben: 7 Verstorben: 29	812	707
über 75 Jahre	Nicht verstorben: 0 Verstorben: 64	Nicht verstorben: 0 Verstorben: 13	0	0
gesamt	Nicht verstorben: 502 Verstorben: 230	Nicht verstorben: 443 Verstorben: 139	69778	101890

Altersgruppe 18 - 24 Jahre 25 - 34 Jahre 35 - 44 Jahre 45 - 54 Jahre 55 - 64 Jahre 65 - 74 Jahre \ddot{u} ber 75 Jahre gesamt n_{11}^{(s)} \cdot n_{22}^{(s)} 122456159617824131812069778 n_{12}^{(s)} \cdot n_{21}^{(s)} 53605665123625607070101890 n^{(s)} 117281230208236165771314

Altersgruppe 18 - 24 Jahre 25 - 34 Jahre 35 - 44 Jahre 45 - 54 Jahre 55 - 64 Jahre 65 - 74 Jahre \ddot{u} ber 75 Jahre gesamt (unwichtig) Z \overset{a}{¨} hler (\frac{n _{11}^{(s)} \cdot n _{22}^{(s)}}{n ^{(s)}}) \frac{122}{117} = 1.043 \frac{456}{281} = 1.6228 \frac{1596}{230} = 6.9391 \frac{1782}{208} = 8.5673 \frac{4131}{236} = 17.5042 \frac{812}{165} = 4.9212 \frac{0}{77} = 0 Nenner (\frac{n _{12}^{(s)} \cdot n _{21}^{(s)}}{n ^{(s)}}) \frac{53}{117} = 0.1966 \frac{605}{281} = 2.1530 \frac{665}{230} = 2.8931 \frac{1236}{208} = 6.9391 \frac{2560}{236} = 10.8474 \frac{707}{165} = 4.2848 \frac{0}{77} = 0

Für den Zähler:

Summe der Z \overset{a}{¨} hler = 1.043 + 1.6228 + 6.9391 + 8.5673 + 17.5042 + 4.9212 + 0

Summe der Z \overset{a}{¨} hler = 40.598

Für den Nenner:

Summe der Nenner = 0.453 + 2.1530 + 2.8931 + 6.9391 + 10.8474 + 4.2848 + 0

Summe der Nenner = 27.570

Warum die Gesamtzeile nicht verwendet wird

Die Gesamtzeile ignoriert die Schichtung der Daten (z. B. Altersgruppen) und führt zu einem unadjustierten Odds Ratio, das mögliche Verzerrungen durch Störvariablen wie Alter nicht berücksichtigt. Der Mantel-Haenszel-Schätzer hingegen kontrolliert diese Verzerrungen, indem er die Odds Ratios für jede Schicht separat berechnet und kombiniert.

Berechnung des Mantel-Haenszel-Schätzers:

OR_{M H} = \frac{Summe der Z a ¨ hler}{Summe der Nenner}

Einsetzen der Werte:

OR_{M H} = \frac{40.598}{27.570} \approx 1.473

Der Wert $OR_{M H} \approx 1.473$ zeigt, dass Raucher im Vergleich zu Nicht-Rauchern eine 47,3 % höhere Wahrscheinlichkeit haben, nicht zu überleben, auch wenn Altersunterschiede berücksichtigt werden.

Aufgabe 3

(a) Erzeugen Sie eine gleichverteilte Variable $x_{1, i} \sim iid U (0, 1)$ und eine binomialverteilte Variable $x_{2, i} \sim iid B in (1, 0.5)$ mit $i = 1, \dots, 300$ . Erzeugen Sie Daten für eine Regression, indem Sie diese simulierten Daten benutzen:

y_{i} = x_{1, i} + 2 x_{2, i} + 10 x_{1, i} x_{2, i} + ε, ε \sim iid N (0, 1)

Der Plot zeigt den Einfluss von $x_{1}$ (gleichverteilte Variable) auf die Zielvariable $y$ , wobei die Kategorien von $x_{2}$ ( $x_{2} = 0$ und $x_{2} = 1$ ) farblich unterschieden werden.

Beobachtungen:

Für $x_{2} = 1$ (orange Punkte) ist der Einfluss von $x_{1}$ auf $y$ stärker, was durch die höhere Streuung nach oben sichtbar wird.
Für $x_{2} = 0$ (blaue Punkte) bleibt $y$ relativ niedrig, und der Anstieg mit $x_{1}$ ist weniger stark.
Die gestrichelte rote Linie zeigt den linearen Trend, der unabhängig von $x_{2}$ den Einfluss von $x_{1}$ auf $y$ beschreibt.

Das Zusammenspiel von $x_{1}$ und $x_{2}$ moduliert den Einfluss auf $y$ erheblich.

Code
Hinweis: Scatterplot mit ggplot2

Der folgende Code erstellt einen Scatterplot, der die Beziehung zwischen $x_{1}$ (gleichverteilte Variable) und $y$ (Zielvariable) visualisiert. $x_{2}$ wird farblich unterschieden, um dessen Einfluss auf die Modulation von $y$ zu zeigen. Der Plot enthält:

Farbliche Kodierung der Kategorien von $x_{2}$ ( $x_{2} = 0$ in hellblau und $x_{2} = 1$ in orange).

Eine gestrichelte rote Trendlinie, die den linearen Zusammenhang zwischen $x_{1}$ und $y$ darstellt.

Titel und Untertitel für bessere Verständlichkeit.
# Scatterplot für x1 und y
scatter_plot <- ggplot(data, aes(x = x1, y = y)) +
  geom_point(aes(color = x2), size = 3, alpha = 0.7) +
  geom_smooth(method = "lm", color = "darkred", linetype = "dashed", se = FALSE) +
  scale_color_manual(values = c("skyblue", "orange"), labels = c("x2 = 0", "x2 = 1")) +
  labs(
    title = "Einfluss von x1 auf die Zielvariable y",
    subtitle = "Die Werte von x2 modulieren den Einfluss von x1 auf y",
    x = "x1 (Gleichverteilte Variable)",
    y = "y (Zielvariable)",
    color = "Kategorie von x2"
  ) +
  theme_minimal(base_size = 16) +
  theme(
    plot.title = element_text(hjust = 0.5, face = "bold"),
    plot.subtitle = element_text(hjust = 0.5),
    legend.position = "top",
    legend.title = element_text(face = "bold")
  )
 
# Scatterplot anzeigen
print(scatter_plot)

(b) Berechnen Sie zwei Regressionsmodelle: Ein naives Modell (nur $x_{1}$ ) und ein volles Modell, welches den Zusammenhang korrekt darstellt. Visualisieren Sie die Daten zusammen mit den Regressionsgeraden.

Code für die Modelle:

# Naives Modell (nur x1)
model_naive <- lm(y ~ x1, data = data)
summary(model_naive)
 
# Volles Modell (mit Wechselwirkung x1 * x2)
model_full <- lm(y ~ x1 * x2, data = data)
summary(model_full)
 
# Visualisierung der Regressionsmodelle
ggplot(data, aes(x = x1, y = y, color = as.factor(x2))) +
  geom_point(alpha = 0.7) +
  geom_smooth(method = "lm", aes(group = x2), se = FALSE) +
  labs(
    title = "Regressionsmodelle für y ~ x1 und y ~ x1 * x2",
    subtitle = "Vergleich von naivem und vollem Modell",
    x = "x1",
    y = "y",
    color = "x2"
  ) +
  theme_minimal()

(c) Um was handelt es sich bei der Variable $x_{2}$ ?

Die Variable $x_{2}$ ist eine kategoriale Variable, die zwei Gruppen unterscheidet ( $x_{2} = 0$ und $x_{2} = 1$ ). Sie moduliert den Einfluss von $x_{1}$ auf $y$ , insbesondere durch die Wechselwirkung $x_{1} \cdot x_{2}$ . Ihre Einbeziehung ist essentiell, um den vollen Zusammenhang zu modellieren.

(d) Simulieren Sie Daten mit dem Code.

Der gegebene Code ist korrekt und simuliert die Daten. Für konsistentere Namen und eine bessere Lesbarkeit sollte der Code wie folgt angepasst werden:

library(mvtnorm)
set.seed(123)
 
n <- 300
 
# Simulation von x1 und x2
x1 <- runif(n, 0, 1)
x2 <- rbinom(n, 1, 0.5)
 
# Berechnung von y
epsilon <- rnorm(n, 0, 1)
y <- x1 + 2 * x2 + 10 * x1 * x2 + epsilon
 
# Datenframe erstellen
data <- data.frame(x1 = x1, x2 = x2, y = y)

(e) Rechnen Sie ein einfaches Regressionsmodell (nur $x_{1}$ ).

# Einfaches Modell
model_simple <- lm(y ~ x1, data = data)
summary(model_simple)

Dieses Modell ignoriert die Modulation durch $x_{2}$ und die Wechselwirkung $x_{1} \cdot x_{2}$ , was zu verzerrten Schätzungen führen kann.

(f) Berücksichtigen Sie nun die Variable $x_{2}$ in Ihrem Regressionsmodell auf geeignete Weise. Um was handelt es sich bei der Variable $x_{2}$ ?

Das volle Regressionsmodell berücksichtigt $x_{2}$ sowie die Wechselwirkung $x_{1} \cdot x_{2}$ :

# Volles Modell
model_full <- lm(y ~ x1 * x2, data = data)
summary(model_full)

$x_{2}$ ist eine kategoriale Variable, die den Einfluss von $x_{1}$ auf $y$ moduliert. Die Wechselwirkungsterm $x_{1} \cdot x_{2}$ zeigt, dass der Effekt von $x_{1}$ auf $y$ stark von der Kategorie von $x_{2}$ abhängt.

🎓 MyUniNotes

Explorer

EiMedBiom - Blatt 3

Aufgabe 1

a) Erstellen Sie eine Kontingenztafel mit den erwarteten Häufigkeiten unter diesen Annahmen auf der Grundlage einer Stichprobe von 1.000.000 heterosexuellen Bürgern.

b) Berechnen Sie sowohl den positiven, als auch den negativen prädiktiven Wert. Interpretieren Sie das Ergebnis.

Positiver prädiktiver Wert

Negativer prädiktiver Wert

Aufgabe 2

(a) Schätzen Sie das unadjustierte Odds Ratio zur Quantifizierung des Zusammenhangs zwischen Rauchen und Überleben.

Mit $n_{rc}$ Formel

(b) Berechnen Sie den Mantel-Haenszel-Schätzer und vergleichen Sie mit dem unadjustierten Schätzer aus Teilaufgabe (a).

Aufgabe 3

(a) Erzeugen Sie eine gleichverteilte Variable $x_{1, i} \sim iid U (0, 1)$ und eine binomialverteilte Variable $x_{2, i} \sim iid B in (1, 0.5)$ mit $i = 1, \dots, 300$ . Erzeugen Sie Daten für eine Regression, indem Sie diese simulierten Daten benutzen:

(b) Berechnen Sie zwei Regressionsmodelle: Ein naives Modell (nur $x_{1}$ ) und ein volles Modell, welches den Zusammenhang korrekt darstellt. Visualisieren Sie die Daten zusammen mit den Regressionsgeraden.

Code für die Modelle:

(c) Um was handelt es sich bei der Variable $x_{2}$ ?

(d) Simulieren Sie Daten mit dem Code.

(e) Rechnen Sie ein einfaches Regressionsmodell (nur $x_{1}$ ).

(f) Berücksichtigen Sie nun die Variable $x_{2}$ in Ihrem Regressionsmodell auf geeignete Weise. Um was handelt es sich bei der Variable $x_{2}$ ?

Graph View

Table of Contents

Backlinks

🎓 MyUniNotes

Explorer

EiMedBiom - Blatt 3

Aufgabe 1

a) Erstellen Sie eine Kontingenztafel mit den erwarteten Häufigkeiten unter diesen Annahmen auf der Grundlage einer Stichprobe von 1.000.000 heterosexuellen Bürgern.

b) Berechnen Sie sowohl den positiven, als auch den negativen prädiktiven Wert. Interpretieren Sie das Ergebnis.

Positiver prädiktiver Wert

Negativer prädiktiver Wert

Aufgabe 2

(a) Schätzen Sie das unadjustierte Odds Ratio zur Quantifizierung des Zusammenhangs zwischen Rauchen und Überleben.

Mit nrc​ Formel

(b) Berechnen Sie den Mantel-Haenszel-Schätzer und vergleichen Sie mit dem unadjustierten Schätzer aus Teilaufgabe (a).

Aufgabe 3

(a) Erzeugen Sie eine gleichverteilte Variable x1,i​∼iidU(0,1) und eine binomialverteilte Variable x2,i​∼iidBin(1,0.5) mit i=1,…,300. Erzeugen Sie Daten für eine Regression, indem Sie diese simulierten Daten benutzen:

(b) Berechnen Sie zwei Regressionsmodelle: Ein naives Modell (nur x1​) und ein volles Modell, welches den Zusammenhang korrekt darstellt. Visualisieren Sie die Daten zusammen mit den Regressionsgeraden.

Code für die Modelle:

(c) Um was handelt es sich bei der Variable x2​?

(d) Simulieren Sie Daten mit dem Code.

(e) Rechnen Sie ein einfaches Regressionsmodell (nur x1​).

(f) Berücksichtigen Sie nun die Variable x2​ in Ihrem Regressionsmodell auf geeignete Weise. Um was handelt es sich bei der Variable x2​?

Graph View

Table of Contents

Backlinks

Mit $n_{rc}$ Formel

(a) Erzeugen Sie eine gleichverteilte Variable $x_{1, i} \sim iid U (0, 1)$ und eine binomialverteilte Variable $x_{2, i} \sim iid B in (1, 0.5)$ mit $i = 1, \dots, 300$ . Erzeugen Sie Daten für eine Regression, indem Sie diese simulierten Daten benutzen:

(b) Berechnen Sie zwei Regressionsmodelle: Ein naives Modell (nur $x_{1}$ ) und ein volles Modell, welches den Zusammenhang korrekt darstellt. Visualisieren Sie die Daten zusammen mit den Regressionsgeraden.

(c) Um was handelt es sich bei der Variable $x_{2}$ ?

(e) Rechnen Sie ein einfaches Regressionsmodell (nur $x_{1}$ ).

(f) Berücksichtigen Sie nun die Variable $x_{2}$ in Ihrem Regressionsmodell auf geeignete Weise. Um was handelt es sich bei der Variable $x_{2}$ ?