Auf Moodle befindet sich ein Datensatz zur Messung des Zusammenhangs zwischen chronischer Bronchitis und Staubkonzentration (dust.RData). Hierbei handelt es sich um Daten, die in den Jahren 1960 bis 1977 an 1246 Mitarbeitern einer Münchner Fabrik erhoben wurden. Diese beinhalten die Angabe, ob der Mitarbeiter chronische Bronchitis hat (crb) und ob er raucht (smoking), sowie die Staubbelastung am Arbeitsplatz in mg/m³ (dust) und die Dauer der Belastung in Jahren (expo).
(a)
Lesen Sie den Datensatz dust.RData in R ein und verschaffen Sie sich einen Überblick über die Daten.
data <- get(load("./dust.RData"))summary(data)# View(data)
(b)
Verwenden Sie ein logistisches Regressionsmodell um den unadjustierten Zusammenhang zwischen Staubbelastung am Arbeitsplatz und chronischer Bronchitis zu schätzen. Stellen Sie dazu die Modellgleichung auf und passen Sie das Modell in R an. Quantifizieren Sie den Zusammenhang zwischen Staubbelastung am Arbeitsplatz und chronischer Bronchitis.
Das bedeutet, dass eine Einheit Erhöhung der Staubbelastung die Odds für chronische Bronchitis um etwa 9.6% erhöht, wenn alle anderen Variablen konstant gehalten werden.
(c)
Gehen Sie nun wie in Aufgabe (b) vor um den für den Raucherstatus und die Belastungsdauer adjustierten Zusammenhang zwischen Staubbelastung am Arbeitsplatz und chronischer Bronchitis zu schätzen. Vermuten Sie, dass Confounding durch den Raucherstatus und/oder die Belastungsdauer vorliegt?
VariableInterceptSmokingExpoDustKoeffizient−3.0478720.6768440.0401550.091888Odds Ratio (OR)e−3.047872≈0.047e0.676844≈1.968e0.040155≈1.041e0.091888≈1.096InterpretationBaseline-Odds fu¨r cbr = 1 bei allen Pra¨diktoren = 0Erho¨ht die Odds um ca. 96.8% pro EinheitErho¨ht die Odds um ca. 4.1% pro EinheitErho¨ht die Odds um ca. 9.6% pro Einheit
Confounding durch Raucherstatus und Belastungsdauer ist plausibel, da beide Variablen mit der Staubbelastung und chronischer Bronchitis zusammenhängen und den beobachteten Zusammenhang verzerren könnten.
Mit VIF kann man Multikollinearität erkennen, die oft mit Confounding einhergeht. Allerdings schließt ein niedriger VIF-Wert Confounding nicht vollständig aus, da Confounding auch ohne hohe Multikollinearität auftreten kann. In unserem Fall zeigen die niedrigen VIF-Werte, dass Multikollinearität kein Problem ist, aber Confounding muss weiterhin durch inhaltliche Analysen oder Vergleiche zwischen adjustierten und unadjustierten Modellen geprüft werden.
(d)
Verwenden Sie den Wald Test um zu testen, ob es einen Zusammenhang zwischen der Staubbelastung und chronischer Bronchitis gibt (verwenden Sie hierbei den Schätzer und die Standardabweichung aus dem Modell in Aufgabe (c)). Geben Sie dazu die Null- und Alternativhypothese, die Teststatistik mit Prüfverteilung, den Prüfwert, den kritischen Wert der Prüfverteilung (bzw. den Ablehnungsbereich) und die Testentscheidung an.
Mitschrift aus Übung:
W=(β^−β0)TΣ−1(β^−β0)W=(Vektor der gescha¨tzten Parameterβ^−Vektor der hypothetischen Werte unter der Nullhypotheseβ0)TInverse der Varianz-Kovarianz-Matrix der gescha¨tzten ParameterΣ−1(β^−β0)
library(aod)wald.test(Sigma=vcov(log_model), b=coef(log_model), Term = 4)
(p-value<0.05)→H0 ablehnenNullhypothese:Alternativhypothese:Teststatistik:Pru¨fverteilung:Kritischer Wert:Ergebnis:Schlussfolgerung:H0:bdust=0H1:bdust=0T=se^(βd^)β^d−0(X2=15.6)χ2-Verteilung mit df=1χ0.05,df=12=3.84Da X2=15.6>3.84 und P<0.05, lehnen wir H0 ab.Es gibt einen signifikanten Zusammenhang zwischen der Staubbelastung und der betrachteten Antwortvariable.
(e)
Wenden Sie den Befehl summary() auf das Modell aus (c) an, um folgende Fragen zu beantworten:
> summary(log_model)Call:glm(formula = cbr ~ smoking + expo + dust, family = binomial, data = data)Coefficients: Estimate Std. Error z.B.value Pr(>|z|)(Intercept) -3.047872 0.248570 -12.262 < 2e-16 ***smoking 0.676844 0.174380 3.881 0.000104 ***expo 0.040155 0.006206 6.470 9.78e-11 ***dust 0.091888 0.023243 3.953 7.71e-05 ***---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1(Dispersion parameter for binomial family taken to be 1) Null deviance: 1356.8 on 1245 degrees of freedomResidual deviance: 1278.3 on 1242 degrees of freedomAIC: 1286.3Number of Fisher Scoring iterations: 4
(i) Wie ist die Interpretation der Regressionskoeffizienten von Raucherstatus und Belastungsdauer?
Raucherstatus
Für eine Person, die Raucher ist, erhöhen sich die Log-Odds für chronische Bronchitis im Vergleich zu einer Nichtraucherperson um 0.676844, wenn alle anderen Variablen konstant gehalten werden.
Umgerechnet bedeutet das, dass die Odds für chronische Bronchitis um e0.676844=1.968≈96.8% steigen.
Belastungsdauer
Mit jeder zusätzlichen Einheit der Belastungsdauer steigen die Log-Odds für chronische Bronchitis um 0.040155, wenn alle anderen Variablen konstant gehalten werden.
Umgerechnet bedeutet das, dass die Odds für chronische Bronchitis um e0.040155=1.041≈4.1% steigen.
Hinweis
Es handelt sich hierbei um eine Steigerung der Odds, nicht direkt der Wahrscheinlichkeit.
Die Odds drücken das Verhältnis von “Erfolg” zu “Misserfolg” aus, z. B. die Quote, dass eine Person chronische Bronchitis hat.
Die Wahrscheinlichkeit (P) wird hingegen durch die Formel:
P=1+OddsOdds
berechnet. Daher ist der Zusammenhang zwischen Odds und Wahrscheinlichkeit nicht linear.
Bei sehr hohen oder sehr niedrigen Wahrscheinlichkeiten fällt der Effekt auf P geringer aus als bei mittleren Wahrscheinlichkeiten.
(ii) Sind die Zusammenhänge zwischen Raucherstatus und chronischer Bronchitis bzw. zwischen Belastungsdauer und chronischer Bronchitis signifikant?
Ja, die Zusammenhänge zwischen Raucherstatus und chronischer Bronchitis sowie zwischen Belastungsdauer und chronischer Bronchitis sind signifikant.
Dies wird durch die p-Werte und die Signifikanzmarkierungen (***) in der Modellzusammenfassung angezeigt:
Raucherstatus (smoking): Der p-Wert beträgt P=0.000104, was kleiner als das Signifikanzniveau von 0.05 ist. Somit ist der Zusammenhang signifikant.
Belastungsdauer (expo): Der p-Wert beträgt P=9.78×10−11, was ebenfalls viel kleiner als 0.05 ist. Auch dieser Zusammenhang ist hochsignifikant.
Die Markierung *** weist darauf hin, dass die p-Werte kleiner als 0.001 sind, was eine sehr starke Evidenz gegen die Nullhypothese (H0:b=0) liefert.
Zusammenfassung: Beide Variablen haben einen signifikanten Zusammenhang mit chronischer Bronchitis.
Aufgabe 2
Ein Arzt erhält bei einer Beobachtungsstudie mit 20 Babys von Risiko-Patientinnen für das Geburtsgewicht einen Mittelwert von 3280 Gramm und eine Standardabweichung von 490 Gramm. Es wird angenommen, dass die Verteilung des Geburtsgewichts annähernd einer Normalverteilung entspricht. Kann nachgewiesen werden, ob sich das Gewicht für Babys von Risiko-Patientinnen von dem aus der Literatur bekannten Durchschnittswert von 3500 Gramm unterscheidet?
(a) Formulieren Sie das statistische Modell und die Null- und Alternativhypothese.
Das Geburtsgewicht X wird als normalverteilt angenommen:
Förmlich
X∼N(μ,σ2)H0HA=Es kann nicht nachgewiesen werden=Es kann nachgewiesen werden
Werte einsetzen
X∼N(3280,490)H0HA:μ=3500g:μ=3500g
(b)Berechnen Sie die Prüfgröße.
In dieser Situation eignet sich ein zweiseitiger t-Test gut, da die Stichprobe klein
ist (n = 20) und die Standardabweichung der Grundgesamtheit o nicht bekannt
ist. Stattdessen wird die Stichprobenstandardabweichung s = 490 verwendet.
Hier ist die Vorgehensweise:
t=nsx−μ0
Einsetzen
t=204903280g−3500g=(−2.01)
Kritischen Wert besitmmen
df=n−1=19
Für ein Signifikanzniveau von 0,05 und einen zweiseitigen Test beträgt tkrit
tkrit≈±2,093
Da, −2,093<2,01<2,093 kann H0 nicht abgelehnt werden
(c) Formulieren und begründen Sie die Testentscheidung.
Testentscheidung
Da der berechnete t-Wert (−2.01) innerhalb des kritischen Bereichs (−2.093≤t≤2.093) liegt, wird die Nullhypothese H0nicht abgelehnt.
Begründung
Beim Signifikanzniveau von 0.05 liefert der t-Test kein statistisch signifikantes Ergebnis. Das bedeutet, dass die Abweichung des beobachteten Mittelwerts (3280g) vom bekannten Durchschnittswert (3500g) nicht groß genug ist, um mit hinreichender Sicherheit auf eine tatsächliche Differenz in der Grundgesamtheit zu schließen. Es gibt also keinen ausreichenden Beleg dafür, dass sich das Geburtsgewicht von Babys von Risiko-Patientinnen signifikant vom Literaturwert unterscheidet.
(d) Interpretation der Testentscheidung
Da H0 nicht abgelehnt wird, gibt es keinen statistischen Nachweis dafür, dass sich das Geburtsgewicht von Babys von Risiko-Patientinnen signifikant vom Literaturwert unterscheidet. Die Daten reichen nicht aus, um die Alternativhypothese HA zu bestätigen.
Aufgabe 3
In dieser Aufgabe werden die Family-wise Error Rate (FWER) und die False Discovery Rate (FDR) gegenübergestellt.
Vergleich von FWER und FDR
Family-wise Error Rate (FWER):
Die Family-wise Error Rate (FWER) bezeichnet die Wahrscheinlichkeit, bei einer Gruppe von Tests mindestens einen Fehler vom Typ I (falsch positiv) zu begehen:
FWER=P(mindestens ein Fehler)
Beispiel:
Führt man 20 Tests mit einem Signifikanzniveau von α=0.05 durch, ohne eine Anpassung vorzunehmen, liegt die Wahrscheinlichkeit, mindestens einen Fehler zu machen, über 5%.
False Discovery Rate (FDR):
Die False Discovery Rate (FDR) ist der erwartete Anteil der falsch positiven Ergebnisse unter allen als positiv identifizierten Entdeckungen:
FDR=E[alle Entdeckungenfalsche Entdeckungen]
Beispiel:
Bei 100 durchgeführten Tests und 10 als positiv identifizierten Ergebnissen könnte eine FDR von 0,2 bedeuten, dass ungefähr 2 dieser positiven Ergebnisse falsch sind.
Zusammenfassung:
FWER bietet einen starken Schutz davor, überhaupt einen Fehler zu begehen. Dies ist besonders wichtig in Bereichen, wo Fehler schwerwiegende Folgen haben können, wie beispielsweise in klinischen Studien.
FDR ermöglicht mehr Entdeckungen, akzeptiert jedoch eine gewisse Anzahl von Fehlern. Dies ist besonders nützlich bei einer großen Anzahl von Tests, wie sie beispielsweise in der Genomforschung vorkommen.
(a) Zeigen Sie für den Spezialfall von k=1 Test, dass FDR=FWER.
(Da bei R=1 auch V=1 gilt und bei R=0 die FDR gleich 0 ist.)
FWER ist definiert als:
FWER=P(V>0)
In diesem Szenario, wo V entweder 0 oder 1 sein kann, ist dies ebenfalls P(V=1).
Daraus folgt:
FDR=FWER
(b) Zeigen Sie, dass allgemein gilt, dass FDR≤FWER. Die Kontrolle welcher der beiden Größen führt somit zu „konservativeren“ Testentscheidungen? Begründen Sie kurz.
Nachweis, dass FDR≤FWER
Die False Discovery Rate (FDR) wird definiert als:
FDR=E[RV⋅1R>0]
Dabei gilt:
RV≤1 für R>0
RV=0 für R=0
Daher ist:
FDR≤P(V>0)
Da die Family-wise Error Rate (FWER) definiert ist als:
FWER=P(V>0)
ergibt sich:
FDR≤FWER
Konservativere Entscheidungen
Die Kontrolle der FWER führt zu konservativeren Testentscheidungen, da sie darauf abzielt, die Wahrscheinlichkeit, überhaupt einen Fehler zu begehen, niedrig zu halten. Dies bedeutet, dass die Tests restriktiver sind und weniger Fehler zulassen, was insbesondere in kritischen Anwendungen wie klinischen Studien von Vorteil ist.
Im Gegensatz dazu erlaubt die Kontrolle der FDR eine gewisse Anzahl von Fehlern unter den abgelehnten Hypothesen, was mehr Flexibilität und eine höhere Entdeckungsrate ermöglicht. Daher sind Testentscheidungen, die auf der Kontrolle der FDR basieren, weniger konservativ im Vergleich zur FWER-Kontrolle.
Aufgabe 4
In einer klinischen Studie erhalten jeweils 50 Patienten eine neue Therapie bzw. die Standardtherapie. Die Therapien sind in 35 Fällen (neue Therapie) und 25 Fällen (Standard-Therapie) erfolgreich.
(a) Stellen Sie die entsprechende 2×2-Kreuztabelle auf.
Erfolg
Misserfolg
Gesamt
Neue Therapie
35
15
50
Standard-Therapie
25
25
50
Gesamt
60
40
100
(b) Führen Sie einen geeigneten Test durch, um auf einem 5%-Niveau zu prüfen, ob sich die Erfolgsraten der beiden Therapien unterscheiden.
Wir verwenden den Chi-Quadrat-Test für Unabhängigkeit.
Schritte:
Hypothesen:
H0: Die Erfolgsraten sind gleich (pneu=pstandard).
HA: Die Erfolgsraten unterscheiden sich (pneu=pstandard).
Ergebnis: Es gibt einen signifikanten Unterschied in den Erfolgsraten der beiden Therapien auf dem 5%-Niveau.
(c) Benutzen Sie in R, um den p-Wert für den Test aus (b) zu bestimmen. (optionale Teilaufgabe)
# Erstellung der Kontingenztabellematrix_data <- matrix(c(35, 15, 25, 25), nrow = 2, byrow = TRUE)colnames(matrix_data) <- c("Erfolg", "Misserfolg")rownames(matrix_data) <- c("Neue Therapie", "Standard-Therapie")# Durchführung des Chi-Quadrat-Teststest <- chisq.test(matrix_data)# Ausgabe des p-Wertstest$p.value
Interpretation: Der ausgegebene p-Wert bestätigt, ob der Unterschied signifikant ist. Bei einem p-Wert < 0.05 wird die Nullhypothese abgelehnt.
×
MyUniNotes is a free, non-profit project to make education accessible for everyone.
If it has helped you, consider giving back! Even a small donation makes a difference.
These are my personal notes. While I strive for accuracy, I’m still a student myself. Thanks for being part of this journey!