Aufgabe 1

In der Kardiologie wurde eine Kohortenstudie () durchgeführt, in der das Auftreten einer milden unerwünschten Arzneimittelwirkung (UAW) in Abhängigkeit von folgenden potenziellen Risikofaktoren untersucht werden sollte:

VariableBeschreibung
StatinStatin verordnet / Statin nicht verordnet
Alterin Jahren
Geschlechtweiblich / männlich
Hämatokritin g/dl

Die Referenzkategorie ist jeweils unterstrichen.

Für die Auswertung wurde ein logistisches Regressionsmodell angewendet. Im Folgenden sehen Sie einen Teil des R-Outputs für das Endmodell ():

Coefficients:

CoefficientEstimateStd. Error
(Intercept)-1.755440.78492
Statin0.146920.26833
Geschlecht0.376680.18705
Alter0.036940.01383
Statin:Geschlecht1.120180.34857

(a) In diesem Datensatz gibt es 33 Frauen, die 54 Jahre alt sind und denen Statin verordnet wurde. Bei wie vielen dieser Frauen erwarten Sie eine UAW?

Logistische Regressionsmodelle und Log-Odds nicht verstanden? → Logistische Regression Odds vs. Wahrscheinlichkeit

Um die erwartete Anzahl der Frauen mit UAW zu berechnen, verwenden wir das logistische Regressionsmodell:

  1. Log-Odds berechnen:

    Einsetzen der Koeffizienten und Werte (Statin = 1, Geschlecht = 1 (weiblich), Alter = 54):

  2. Odds in Wahrscheinlichkeit umrechnen:

  3. Erwartete Anzahl:

Antwort: Bei etwa 28 der 33 Frauen erwarten wir eine UAW.

(b) Berechnen Sie das Odds Ratio der unter (a) definierten Patientengruppe im Vergleich zu Männern, die kein Statin verordnet bekamen und 73 Jahre alt sind.

Einsetzen

Log-Odds beider Gruppen

Wichtig

Du hast kein Plan warum wir diese Formel brauchen? → Erklärung Warum wir die Differenz der Log-Odds verwenden und nicht die Division

  1. Frauen mit Statin (54. Jahre)
  2. Männer ohne Statin (73 Jahre)

Differenz dieser log Odds

Tipp

Du hast kein Plan warum wir hier subtrahieren und nicht dividieren? → Erklärung Warum wir die Differenz der Log-Odds verwenden und nicht die Division

Damit nun Odds berechnen

→ Die OR dafür, dass eine Frau mit Statin im Alter von 54 Jahren eine UAW hat ist ungefähr 2.56 mal größer als ein Mann ohne Statin im Alter von 73 Jahren

(c) Überprüfen Sie anhand eines geeigneten Tests, ob der Effekt von Alter statistisch signifikant ist. Berechnen Sie analog für den Regressionskoeffizienten von Alter ein 95%-Wald-Konfidenzintervall.

1. Überprüfung der statistischen Signifikanz des Alterseffekts

a) Wahl des Tests:
Um zu prüfen, ob der Effekt des Alters signifikant ist, verwenden wir den Wald-Test.
Warum?

  • Der Wald-Test nutzt direkt den geschätzten Koeffizienten () und seinen Standardfehler () aus dem Regressionsoutput.
  • Er ist einfach durchzuführen, da keine zusätzlichen Modellrechnungen (z. B. Likelihood-Ratio-Test) erforderlich sind.
  • Bei großen Stichproben () ist der Wald-Test zuverlässig.

b) Berechnung der Teststatistik:

c) Entscheidung:

  • Kritischer Wert bei (zweiseitig): .
  • Da , lehnen wir die Nullhypothese ab.
  • Ergebnis: Der Effekt des Alters ist statistisch signifikant ().

2. Berechnung des 95%-Wald-Konfidenzintervalls für (Alter)

a) Formel:

b) Berechnung:

c) Interpretation:

  • Das 95%-Konfidenzintervall für ist .
  • Da die Null nicht im Intervall liegt, bestätigt dies die Signifikanz des Alterseffekts.
  • Effektstärke: Pro zusätzlichem Lebensjahr steigen die Log-Odds für eine UAW um 0.0098 bis 0.0640.
  • Odds Ratio: bis .

3. Fazit

  • Alter hat einen signifikant positiven Einfluss auf das Auftreten einer UAW ().
  • 95%-Konfidenzintervall: .
  • Praxisrelevanz: Obwohl der Effekt klein ist, ist er statistisch nachweisbar.

(d) Ein Kollege berechnet ein weiteres logistisches Regressionsmodell, indem er zusätzlich den potenziellen Einflussfaktor Hämatokrit berücksichtigt. Der entsprechende R-Output für das Endmodell lautet:

Coefficients:

CoefficientEstimateStd. Error
(Intercept)1.842890.79758
Statin-0.142320.26846
Geschlecht-0.378830.18714
Alter-0.037020.01384
Hämatokrit-0.165620.25825
Statin:Geschlecht-1.127030.34881

Was fällt Ihnen auf? Können Sie dieses Ergebnis „reparieren“?

Auffälligkeiten

  1. Vorzeichenumkehr:
    Die Koeffizienten für Statin, Geschlecht, Alter und Statin:Geschlecht haben im Vergleich zum ursprünglichen Modell gegenläufige Vorzeichen (z. B. Statin: von +0.14692 auf -0.14232). Dies deutet auf Multikollinearität oder eine fehlende Interaktion hin.

  2. Fehlende Interaktion:
    Es gibt einen Interaktionsterm Statin:Geschlecht, aber keinen Term Hämatokrit:Geschlecht. Falls der Effekt von Hämatokrit geschlechtsspezifisch ist, verzerrt dies die Schätzungen.

Reparatur-Schritte

  1. Interaktion hinzufügen:
    Erweitere das Modell um Hämatokrit:Geschlecht:

    formula = UAW ~ Statin + Geschlecht + Alter + Hämatokrit + Statin:Geschlecht + Hämatokrit:Geschlecht

    Begründung: Der Effekt von Hämatokrit könnte bei Frauen und Männern unterschiedlich sein.

  2. Multikollinearität prüfen:
    Berechne die Variance Inflation Factors (VIF) für alle Prädiktoren:

    • VIF > 5 → Prädiktor entfernen/kombinieren.
    • Verdacht: Hämatokrit könnte mit Alter/Geschlecht korrelieren.
  3. Modell neu anpassen:
    Nach Hinzufügen der Interaktion prüfen, ob sich die Vorzeichen stabilisieren.

Ergebnis

  • Durch Hämatokrit:Geschlecht werden geschlechtsspezifische Effekte abgebildet.
  • Die Vorzeichenumkehr der anderen Koeffizienten verschwindet wahrscheinlich.

Antwort:
Das Modell lässt sich reparieren, indem man Hämatokrit:Geschlecht hinzufügt und Multikollinearität prüft.

(e) Die Devianz des Regressionsmodells aus Aufgabe (a) beträgt 1028,437, die Devianz des Regressionsmodells aus Aufgabe (d) beträgt 1028,849. Führen Sie einen Likelihood-Quotienten-Test (LRT) durch und interpretieren Sie das Ergebnis.

Hinweis: Die Devianz ist definiert für ein Modell als , wobei die Likelihood des saturierten Modells ist (nicht angegeben).

Schritte des Likelihood-Quotienten-Tests (LRT)

  1. Nullhypothese (): Das komplexere Modell (d) mit Hämatokrit bietet keinen signifikanten Vorteil gegenüber dem einfacheren Modell (a).

  2. Teststatistik:

    Hinweis: Ein negativer Wert bedeutet, dass das komplexe Modell eine schlechtere Anpassung hat als das einfache Modell.

  3. Entscheidung:

    • Die Teststatistik folgt einer -Verteilung mit (weil Modell (d) 1 zusätzlichen Parameter enthält).
    • Kritischer Wert bei : .
    • Da , kann nicht verworfen werden.

Interpretation

  • Ergebnis: Das Hinzufügen von Hämatokrit verbessert das Modell nicht signifikant ().
  • Praktische Bedeutung: Hämatokrit trägt in diesem Kontext nicht zur Erklärung der UAW bei.
  • Achtung: Der negative LRT-Wert deutet darauf hin, dass das komplexe Modell sogar schlechter passt als das einfache Modell – ein klares Zeichen, dass Hämatokrit keinen Nutzen hat.

Aufgabe 2

In einer Studie mit Personen wurde der Zusammenhang zwischen der Lebenszufriedenheit einer Person und der Anzahl ihrer positiven Tagesereignisse in den letzten 24 Stunden untersucht. Personen markierten auf einer Liste von 30 positiven Tagesereignissen alle, die sie in den letzten 24 Stunden erlebt hatten. Die abhängige Variable Lebenszufriedenheit wurde anhand des Items „Ich bin mit meinem Leben zufrieden“ erfasst. Der Antwort „ja“ wurde der Wert 1, der Antwort „nein“ der Wert 0 zugeordnet. Eine Analyse des Zusammenhangs beider Variablen auf Basis einer logistischen Regression mit Prädiktor ergab folgende Ergebnisse: und .

(a) Stellen Sie das zugehörige Regressionsmodell auf und interpretieren Sie die Parameter und .

Unzureichende Lösung

  • steht für die Grundlebenszufriedenheit, die eine Person hat, unabhängig von der Anzahl ihrer positiven Tagesereignisse
  • steht für die zusätzliche Lebenszufriedenheit, die pro Anzahl der positiven Tagesereignisse der Personen zur Grundlebenszufriedenheit addiert wird.

Regressionsmodell:

Interpretation der Parameter:

  1. :
    Dies ist der log-Odds der Lebenszufriedenheit, wenn eine Person keine positiven Tagesereignisse hatte ().

    • Inhaltlich: Bei beträgt die Wahrscheinlichkeit für “Ja” etwa (sehr knapp über 50%).
    • Formulierungen wie “Grundlebenszufriedenheit” sind intuitiv, sollten aber klar auf den log-Odds-Bezug hinweisen.
  2. :
    Dieser Koeffizient gibt die Änderung der log-Odds der Lebenszufriedenheit pro zusätzlichem positiven Tagesereignis an.

    • Einfacher ausgedrückt: Mit jedem positiven Ereignis erhöhen sich die log-Odds um .
    • Odds-Ratio-Interpretation: Die Odds selbst vervielfachen sich pro Ereignis um (d. h., sie steigen um etwa ).

Kritik an meiner eigentlichen Lösung:

  • Die Formulierung “zusätzliche Lebenszufriedenheit” ist irreführend, da es sich nicht um eine direkte Erhöhung der Lebenszufriedenheit (als metrische Variable), sondern um die log-Odds der binären Antwort handelt.
  • Präzisieren Sie, dass und Effekte auf der Skala der logarithmierten Chancen abbilden.

Korrekte Kurzantwort:

  • : Log-Odds der Lebenszufriedenheit bei .
  • : Erhöhung der log-Odds pro zusätzlichem positiven Ereignis.

(b) Wie ändern sich die Chancen für Lebenszufriedenheit, wenn die Anzahl an positiven Tagesereignissen um 10 ansteigt?

Lebenszufriedenheit mit 10 positiven Tagen

Man sollte die Wahrscheinlichtkeit nicht berechnen nur die Chance (Odds)

Lebenszufriedenheit mit 0 positiven Tagen

  • Ergebnis:

Man sollte die Wahrscheinlichtkeit nicht berechnen nur die Chance (Odds)

Antwort

Man sollte die Wahrscheinlichtkeit nicht berechnen nur die Chance (Odds)

→ Die Lebenszufriedenheit steigt um

→ Die Chancen für Lebenszufriedenheit verdoppeln sich (Odds-Ratio ≈ 2.07), wenn die Anzahl positiver Tagesereignisse um 10 steigt.

(c) Berechnen Sie die Wahrscheinlichkeit, mit dem Leben zufrieden zu sein, für eine Person, die 10 positive Tagesereignisse angegeben hat.

→ Eine Person die 10 positive Tagesereignisse angegeben hat, hat eine Wahrscheinlichkeit zufrieden mit dem Leben zu sein

(d) Plotten Sie in die Wahrscheinlichkeit, mit dem Leben zufrieden zu sein, in Abhängigkeit von der Anzahl an positiven Tagesereignissen.

# Koeffizienten aus der logistischen Regression
beta0 <- 0.0113
beta1 <- 0.0728
 
# Bereich der positiven Tagesereignisse (0 bis 30, da 30 die maximale Anzahl ist)
x <- seq(0, 30, by = 1)
 
# Berechnung der Wahrscheinlichkeiten P(Y=1)
log_odds <- beta0 + beta1 * x
prob <- exp(log_odds) / (1 + exp(log_odds))  # Alternativ: plogis(log_odds)
 
# Plot erstellen
plot(x, prob,
     type = "l",        # Linienplot
     col = "darkblue",
     lwd = 2,
     xlab = "Anzahl positiver Tagesereignisse",
     ylab = "Wahrscheinlichkeit der Lebenszufriedenheit",
     main = "Wahrscheinlichkeit der Lebenszufriedenheit nach positiven Ereignissen",
     ylim = c(0, 1))    # Y-Achse von 0 bis 1
 
# Raster hinzufügen
grid()
 
# Hervorhebung des Beispiels aus Teil (c): x = 10
points(10, 0.677, col = "red", pch = 19)
text(10, 0.6, "67.7% bei x=10", col = "red", pos = 4)

×

MyUniNotes is a free, non-profit project to make education accessible for everyone. If it has helped you, consider giving back! Even a small donation makes a difference.

These are my personal notes. While I strive for accuracy, I’m still a student myself. Thanks for being part of this journey!