Nach konservativen Modellrechnungen von vor einigen Jahren lag die Prävalenz von HIV-Infizierten unter heterosexuellen deutschen Bürgern bei 0,1% (Dt. Ärzteblatt 85, Heft 37).
Für Vorsorgeuntersuchungen steht ein HIV-Test mit einer Sensitivität von 0,98 und einer Spezifität von 0,99 zur Verfügung.
a) Erstellen Sie eine Kontingenztafel mit den erwarteten Häufigkeiten unter diesen Annahmen auf der Grundlage einer Stichprobe von 1.000.000 heterosexuellen Bürgern.
Ist es in Ordnung, wenn ich bei der Berechnung des NPV 0.98901 anstelle von 0.99 verwende?
Aufgabe 2
Appleton et al. (1996) untersuchten den Zusammenhang zwischen Rauchgewohnheiten und 20-Jahres Überleben. Die unten stehende Tabelle zeigt die Daten getrennt für verschiedene Altersgruppen.
Um Berechnungen zu erleichtern sind zusätzlich die Produkte der Diagonal- und Antidiagonalelemente der jeweiligen Vierfeldertafeln angegeben. nij(s) bezeichnet dabei den Eintrag in der i-ten Zeile und j-ten Spalte der s-ten Vierfeldertafel.
Summe der Za¨hler=1.043+1.6228+6.9391+8.5673+17.5042+4.9212+0Summe der Za¨hler=40.598
Für den Nenner:
Summe der Nenner=0.453+2.1530+2.8931+6.9391+10.8474+4.2848+0Summe der Nenner=27.570
Warum die Gesamtzeile nicht verwendet wird
Die Gesamtzeile ignoriert die Schichtung der Daten (z. B. Altersgruppen) und führt zu einem unadjustierten Odds Ratio, das mögliche Verzerrungen durch Störvariablen wie Alter nicht berücksichtigt. Der Mantel-Haenszel-Schätzer hingegen kontrolliert diese Verzerrungen, indem er die Odds Ratios für jede Schicht separat berechnet und kombiniert.
Berechnung des Mantel-Haenszel-Schätzers:
ORMH=Summe der NennerSumme der Za¨hler
Einsetzen der Werte:
ORMH=27.57040.598≈1.473
Der Wert ORMH≈1.473 zeigt, dass Raucher im Vergleich zu Nicht-Rauchern eine 47,3 % höhere Wahrscheinlichkeit haben, nicht zu überleben, auch wenn Altersunterschiede berücksichtigt werden.
Aufgabe 3
(a) Erzeugen Sie eine gleichverteilte Variable x1,i∼iidU(0,1) und eine binomialverteilte Variable x2,i∼iidBin(1,0.5) mit i=1,…,300. Erzeugen Sie Daten für eine Regression, indem Sie diese simulierten Daten benutzen:
yi=x1,i+2x2,i+10x1,ix2,i+ε,ε∼iidN(0,1)
Der Plot zeigt den Einfluss von x1 (gleichverteilte Variable) auf die Zielvariable y, wobei die Kategorien von x2 (x2=0 und x2=1) farblich unterschieden werden.
Beobachtungen:
Für x2=1 (orange Punkte) ist der Einfluss von x1 auf y stärker, was durch die höhere Streuung nach oben sichtbar wird.
Für x2=0 (blaue Punkte) bleibt y relativ niedrig, und der Anstieg mit x1 ist weniger stark.
Die gestrichelte rote Linie zeigt den linearen Trend, der unabhängig von x2 den Einfluss von x1 auf y beschreibt.
Das Zusammenspiel von x1 und x2 moduliert den Einfluss auf y erheblich.
Code
Hinweis: Scatterplot mit ggplot2
Der folgende Code erstellt einen Scatterplot, der die Beziehung zwischen x1 (gleichverteilte Variable) und y (Zielvariable) visualisiert. x2 wird farblich unterschieden, um dessen Einfluss auf die Modulation von y zu zeigen. Der Plot enthält:
Farbliche Kodierung der Kategorien von x2 (x2=0 in hellblau und x2=1 in orange).
Eine gestrichelte rote Trendlinie, die den linearen Zusammenhang zwischen x1 und y darstellt.
Titel und Untertitel für bessere Verständlichkeit.
# Scatterplot für x1 und yscatter_plot <- ggplot(data, aes(x = x1, y = y)) + geom_point(aes(color = x2), size = 3, alpha = 0.7) + geom_smooth(method = "lm", color = "darkred", linetype = "dashed", se = FALSE) + scale_color_manual(values = c("skyblue", "orange"), labels = c("x2 = 0", "x2 = 1")) + labs( title = "Einfluss von x1 auf die Zielvariable y", subtitle = "Die Werte von x2 modulieren den Einfluss von x1 auf y", x = "x1 (Gleichverteilte Variable)", y = "y (Zielvariable)", color = "Kategorie von x2" ) + theme_minimal(base_size = 16) + theme( plot.title = element_text(hjust = 0.5, face = "bold"), plot.subtitle = element_text(hjust = 0.5), legend.position = "top", legend.title = element_text(face = "bold") )# Scatterplot anzeigenprint(scatter_plot)
(b) Berechnen Sie zwei Regressionsmodelle: Ein naives Modell (nur x1) und ein volles Modell, welches den Zusammenhang korrekt darstellt. Visualisieren Sie die Daten zusammen mit den Regressionsgeraden.
Code für die Modelle:
# Naives Modell (nur x1)model_naive <- lm(y ~ x1, data = data)summary(model_naive)# Volles Modell (mit Wechselwirkung x1 * x2)model_full <- lm(y ~ x1 * x2, data = data)summary(model_full)# Visualisierung der Regressionsmodelleggplot(data, aes(x = x1, y = y, color = as.factor(x2))) + geom_point(alpha = 0.7) + geom_smooth(method = "lm", aes(group = x2), se = FALSE) + labs( title = "Regressionsmodelle für y ~ x1 und y ~ x1 * x2", subtitle = "Vergleich von naivem und vollem Modell", x = "x1", y = "y", color = "x2" ) + theme_minimal()
(c) Um was handelt es sich bei der Variable x2?
Die Variable x2 ist eine kategoriale Variable, die zwei Gruppen unterscheidet (x2=0 und x2=1). Sie moduliert den Einfluss von x1 auf y, insbesondere durch die Wechselwirkung x1⋅x2. Ihre Einbeziehung ist essentiell, um den vollen Zusammenhang zu modellieren.
(d) Simulieren Sie Daten mit dem Code.
Der gegebene Code ist korrekt und simuliert die Daten. Für konsistentere Namen und eine bessere Lesbarkeit sollte der Code wie folgt angepasst werden:
x2 ist eine kategoriale Variable, die den Einfluss von x1 auf y moduliert. Die Wechselwirkungsterm x1⋅x2 zeigt, dass der Effekt von x1 auf y stark von der Kategorie von x2 abhängt.
×
MyUniNotes is a free, non-profit project to make education accessible for everyone.
If it has helped you, consider giving back! Even a small donation makes a difference.
These are my personal notes. While I strive for accuracy, I’m still a student myself. Thanks for being part of this journey!