Aufgabe 1

Auf Moodle befindet sich ein Datensatz zur Messung des Zusammenhangs zwischen chronischer Bronchitis und Staubkonzentration (dust.RData). Hierbei handelt es sich um Daten, die in den Jahren 1960 bis 1977 an 1246 Mitarbeitern einer Münchner Fabrik erhoben wurden. Diese beinhalten die Angabe, ob der Mitarbeiter chronische Bronchitis hat (crb) und ob er raucht (smoking), sowie die Staubbelastung am Arbeitsplatz in mg/m³ (dust) und die Dauer der Belastung in Jahren (expo).

(a)

Lesen Sie den Datensatz dust.RData in R ein und verschaffen Sie sich einen Überblick über die Daten.

data <- get(load("./dust.RData"))
summary(data)
# View(data)

(b)

Verwenden Sie ein logistisches Regressionsmodell um den unadjustierten Zusammenhang zwischen Staubbelastung am Arbeitsplatz und chronischer Bronchitis zu schätzen. Stellen Sie dazu die Modellgleichung auf und passen Sie das Modell in R an. Quantifizieren Sie den Zusammenhang zwischen Staubbelastung am Arbeitsplatz und chronischer Bronchitis.

Mein log Regressionsmodell

Schema

Einsetzen in Logistisches Regressionsmodell

Korrigierte Lösung

log_model <- glm(cbr ~ dust, data = data, family = binomial(link = 'logit'))
summary(log_model)

Nicht im Bezug zu cbr und dust

log_model <- glm(cbr ~ smoking + expo + dust, data = data, family = binomial)
summary(log_model)

\downarrow Nicht im Bezug zu cbr und dust \downarrow

Call:
glm(formula = cbr ~ smoking + expo + dust, family = binomial,
    data = data)
 
Coefficients:
             Estimate Std. Error z.B.value Pr(>|z|)
(Intercept) -3.047872   0.248570 -12.262  < 2e-16 ***
smoking      0.676844   0.174380   3.881 0.000104 ***
expo         0.040155   0.006206   6.470 9.78e-11 ***
dust         0.091888   0.023243   3.953 7.71e-05 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1
 
(Dispersion parameter for binomial family taken to be 1)
 
    Null deviance: 1356.8  on 1245  degrees of freedom
Residual deviance: 1278.3  on 1242  degrees of freedom
AIC: 1286.3
 
Number of Fisher Scoring iterations: 4
 

Werte einsetzen

log_modell

Zusammenhang zwischen expo und cb

Die Log-Odds aus dem logistischen Regressionmodell müssen berechnet werden, um die normale Odds-Ratio wiedergeben zu können

Dementsprechend:

exp(coef(log_model))
> print(exp(coef(log_model)))
(Intercept)     smoking        expo        dust
 0.04745981  1.96765828  1.04097185  1.09624166

Das bedeutet, dass eine Einheit Erhöhung der Staubbelastung die Odds für chronische Bronchitis um etwa 9.6% erhöht, wenn alle anderen Variablen konstant gehalten werden.

(c)

Gehen Sie nun wie in Aufgabe (b) vor um den für den Raucherstatus und die Belastungsdauer adjustierten Zusammenhang zwischen Staubbelastung am Arbeitsplatz und chronischer Bronchitis zu schätzen. Vermuten Sie, dass Confounding durch den Raucherstatus und/oder die Belastungsdauer vorliegt?

> print(exp(coef(log_model)))
(Intercept)     smoking        expo        dust
 0.04745981  1.96765828  1.04097185  1.09624166

Confounding durch Raucherstatus und Belastungsdauer ist plausibel, da beide Variablen mit der Staubbelastung und chronischer Bronchitis zusammenhängen und den beobachteten Zusammenhang verzerren könnten.

Test auf Confounding

> library(car)
> vif(log_model)
 smoking     expo     dust
1.003065 1.003377 1.001518

Mit VIF kann man Multikollinearität erkennen, die oft mit Confounding einhergeht. Allerdings schließt ein niedriger VIF-Wert Confounding nicht vollständig aus, da Confounding auch ohne hohe Multikollinearität auftreten kann. In unserem Fall zeigen die niedrigen VIF-Werte, dass Multikollinearität kein Problem ist, aber Confounding muss weiterhin durch inhaltliche Analysen oder Vergleiche zwischen adjustierten und unadjustierten Modellen geprüft werden.

(d)

Verwenden Sie den Wald Test um zu testen, ob es einen Zusammenhang zwischen der Staubbelastung und chronischer Bronchitis gibt (verwenden Sie hierbei den Schätzer und die Standardabweichung aus dem Modell in Aufgabe (c)). Geben Sie dazu die Null- und Alternativhypothese, die Teststatistik mit Prüfverteilung, den Prüfwert, den kritischen Wert der Prüfverteilung (bzw. den Ablehnungsbereich) und die Testentscheidung an.

Mitschrift aus Übung:

library(aod)
wald.test(Sigma=vcov(log_model), b=coef(log_model), Term = 4)
> wald.test(Sigma=vcov(log_model), b=coef(log_model), Term = 4)
Wald test:
----------
 
Chi-squared test:
X2 = 15.6, df = 1, P(> X2) = 7.7e-05

(e)

Wenden Sie den Befehl summary() auf das Modell aus (c) an, um folgende Fragen zu beantworten:

> summary(log_model)
 
Call:
glm(formula = cbr ~ smoking + expo + dust, family = binomial,
    data = data)
 
Coefficients:
             Estimate Std. Error z.B.value Pr(>|z|)
(Intercept) -3.047872   0.248570 -12.262  < 2e-16 ***
smoking      0.676844   0.174380   3.881 0.000104 ***
expo         0.040155   0.006206   6.470 9.78e-11 ***
dust         0.091888   0.023243   3.953 7.71e-05 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1
 
(Dispersion parameter for binomial family taken to be 1)
 
    Null deviance: 1356.8  on 1245  degrees of freedom
Residual deviance: 1278.3  on 1242  degrees of freedom
AIC: 1286.3
 
Number of Fisher Scoring iterations: 4
 

(i) Wie ist die Interpretation der Regressionskoeffizienten von Raucherstatus und Belastungsdauer?

  • Raucherstatus

    • Für eine Person, die Raucher ist, erhöhen sich die Log-Odds für chronische Bronchitis im Vergleich zu einer Nichtraucherperson um  , wenn alle anderen Variablen konstant gehalten werden.
    • Umgerechnet bedeutet das, dass die Odds für chronische Bronchitis um steigen.
  • Belastungsdauer

    • Mit jeder zusätzlichen Einheit der Belastungsdauer steigen die Log-Odds für chronische Bronchitis um  , wenn alle anderen Variablen konstant gehalten werden.
    • Umgerechnet bedeutet das, dass die Odds für chronische Bronchitis um steigen.

Hinweis

Es handelt sich hierbei um eine Steigerung der Odds, nicht direkt der Wahrscheinlichkeit.
Die Odds drücken das Verhältnis von “Erfolg” zu “Misserfolg” aus, z. B. die Quote, dass eine Person chronische Bronchitis hat.
Die Wahrscheinlichkeit () wird hingegen durch die Formel:

berechnet. Daher ist der Zusammenhang zwischen Odds und Wahrscheinlichkeit nicht linear.
Bei sehr hohen oder sehr niedrigen Wahrscheinlichkeiten fällt der Effekt auf geringer aus als bei mittleren Wahrscheinlichkeiten.

(ii) Sind die Zusammenhänge zwischen Raucherstatus und chronischer Bronchitis bzw. zwischen Belastungsdauer und chronischer Bronchitis signifikant?

  • Ja, angedeutet durch *** am ende der Zeile
Coefficients:
             Estimate Std. Error z.B.value Pr(>|z|)
(Intercept) -3.047872   0.248570 -12.262  < 2e-16 ***
smoking      0.676844   0.174380   3.881 0.000104 ***
expo         0.040155   0.006206   6.470 9.78e-11 ***
dust         0.091888   0.023243   3.953 7.71e-05 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

(ii) Sind die Zusammenhänge zwischen Raucherstatus und chronischer Bronchitis bzw. zwischen Belastungsdauer und chronischer Bronchitis signifikant?

  • Ja, angedeutet durch *** am ende der Zeile
Coefficients:
             Estimate Std. Error z.B.value Pr(>|z|)
(Intercept) -3.047872   0.248570 -12.262  < 2e-16 ***
smoking      0.676844   0.174380   3.881 0.000104 ***
expo         0.040155   0.006206   6.470 9.78e-11 ***
dust         0.091888   0.023243   3.953 7.71e-05 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Aufgabe 2

Ein Arzt erhält bei einer Beobachtungsstudie mit 20 Babys von Risiko-Patientinnen für das Geburtsgewicht einen Mittelwert von 3280 Gramm und eine Standardabweichung von 490 Gramm. Es wird angenommen, dass die Verteilung des Geburtsgewichts annähernd einer Normalverteilung entspricht. Kann nachgewiesen werden, ob sich das Gewicht für Babys von Risiko-Patientinnen von dem aus der Literatur bekannten Durchschnittswert von 3500 Gramm unterscheidet?

(a) Formulieren Sie das statistische Modell und die Null- und Alternativhypothese.

Das Geburtsgewicht wird als normalverteilt angenommen:

Förmlich

Werte einsetzen

(b)Berechnen Sie die Prüfgröße.

In dieser Situation eignet sich ein zweiseitiger t-Test gut, da die Stichprobe klein ist (n = 20) und die Standardabweichung der Grundgesamtheit o nicht bekannt ist. Stattdessen wird die Stichprobenstandardabweichung s = 490 verwendet. Hier ist die Vorgehensweise:

Einsetzen

Kritischen Wert besitmmen

Für ein Signifikanzniveau von und einen zweiseitigen Test beträgt

Da, kann nicht abgelehnt werden

(c) Formulieren und begründen Sie die Testentscheidung.

Testentscheidung

Da der berechnete t-Wert () innerhalb des kritischen Bereichs () liegt, wird die Nullhypothese nicht abgelehnt.

Begründung

Beim Signifikanzniveau von liefert der t-Test kein statistisch signifikantes Ergebnis. Das bedeutet, dass die Abweichung des beobachteten Mittelwerts () vom bekannten Durchschnittswert () nicht groß genug ist, um mit hinreichender Sicherheit auf eine tatsächliche Differenz in der Grundgesamtheit zu schließen. Es gibt also keinen ausreichenden Beleg dafür, dass sich das Geburtsgewicht von Babys von Risiko-Patientinnen signifikant vom Literaturwert unterscheidet.

(d) Interpretation der Testentscheidung

Da nicht abgelehnt wird, gibt es keinen statistischen Nachweis dafür, dass sich das Geburtsgewicht von Babys von Risiko-Patientinnen signifikant vom Literaturwert unterscheidet. Die Daten reichen nicht aus, um die Alternativhypothese zu bestätigen.


Aufgabe 3

In dieser Aufgabe werden die Family-wise Error Rate (FWER) und die False Discovery Rate (FDR) gegenübergestellt.

(a) Zeigen Sie für den Spezialfall von Test, dass .

Betrachten wir den Fall mit nur einem Test ():

  • FDR ist definiert als:

    (Da bei auch gilt und bei die FDR gleich 0 ist.)

  • FWER ist definiert als:

    In diesem Szenario, wo entweder 0 oder 1 sein kann, ist dies ebenfalls .

Daraus folgt:

(b) Zeigen Sie, dass allgemein gilt, dass . Die Kontrolle welcher der beiden Größen führt somit zu „konservativeren“ Testentscheidungen? Begründen Sie kurz.

Nachweis, dass

Die False Discovery Rate (FDR) wird definiert als:

Dabei gilt:

  • für
  • für

Daher ist:

Da die Family-wise Error Rate (FWER) definiert ist als:

ergibt sich:

Konservativere Entscheidungen

Die Kontrolle der FWER führt zu konservativeren Testentscheidungen, da sie darauf abzielt, die Wahrscheinlichkeit, überhaupt einen Fehler zu begehen, niedrig zu halten. Dies bedeutet, dass die Tests restriktiver sind und weniger Fehler zulassen, was insbesondere in kritischen Anwendungen wie klinischen Studien von Vorteil ist.

Im Gegensatz dazu erlaubt die Kontrolle der FDR eine gewisse Anzahl von Fehlern unter den abgelehnten Hypothesen, was mehr Flexibilität und eine höhere Entdeckungsrate ermöglicht. Daher sind Testentscheidungen, die auf der Kontrolle der FDR basieren, weniger konservativ im Vergleich zur FWER-Kontrolle.


Aufgabe 4

In einer klinischen Studie erhalten jeweils 50 Patienten eine neue Therapie bzw. die Standardtherapie. Die Therapien sind in 35 Fällen (neue Therapie) und 25 Fällen (Standard-Therapie) erfolgreich.

(a) Stellen Sie die entsprechende -Kreuztabelle auf.

ErfolgMisserfolgGesamt
Neue Therapie351550
Standard-Therapie252550
Gesamt6040100

(b) Führen Sie einen geeigneten Test durch, um auf einem 5%-Niveau zu prüfen, ob sich die Erfolgsraten der beiden Therapien unterscheiden.

Wir verwenden den Chi-Quadrat-Test für Unabhängigkeit.

Schritte:

  1. Hypothesen:

    • : Die Erfolgsraten sind gleich ().
    • : Die Erfolgsraten unterscheiden sich ().
  2. Erwartete Häufigkeiten:

  3. Chi-Quadrat-Statistik:

  4. Vergleich mit dem kritischen Wert:

    • Freiheitsgrade:
    • Kritischer Wert bei :
    • Da , wird abgelehnt.

Ergebnis: Es gibt einen signifikanten Unterschied in den Erfolgsraten der beiden Therapien auf dem 5%-Niveau.

(c) Benutzen Sie in R, um den p-Wert für den Test aus (b) zu bestimmen. (optionale Teilaufgabe)

# Erstellung der Kontingenztabelle
matrix_data <- matrix(c(35, 15, 25, 25), nrow = 2, byrow = TRUE)
colnames(matrix_data) <- c("Erfolg", "Misserfolg")
rownames(matrix_data) <- c("Neue Therapie", "Standard-Therapie")
 
# Durchführung des Chi-Quadrat-Tests
test <- chisq.test(matrix_data)
 
# Ausgabe des p-Werts
test$p.value

Interpretation: Der ausgegebene p-Wert bestätigt, ob der Unterschied signifikant ist. Bei einem p-Wert < 0.05 wird die Nullhypothese abgelehnt.