📌 Statistisches Testen – Cheat Sheet


🔍 1. Einführung in statistisches Testen

  • Ziel: Überprüfung einer wissenschaftlichen Hypothese anhand empirischer Daten.
  • Grundlage: Vergleich von beobachteten Daten mit einem erwarteten Muster unter einer Nullhypothese .
  • Beispiel: Ein Mediziner vermutet, dass Babys, deren Mütter einem bestimmten Risiko ausgesetzt waren, ein geringeres Geburtsgewicht haben als 3500g.

📊 2. Hypothesen & Testentscheidung

  • Nullhypothese (): Es gibt keinen Unterschied / Effekt.
  • Alternativhypothese (): Es gibt einen Unterschied / Effekt.
  • Zweiseitiger Test: Prüfung auf jede Abweichung von .
  • Einseitiger Test: Prüfung nur auf eine bestimmte Richtung der Abweichung.

Beispiel für zweiseitigen Test:


📈 3. Fehlerarten & Signifikanzniveau

Entscheidung ist wahr ist falsch
nicht verwerfenRichtige EntscheidungFehler II. Art ()
verwerfenFehler I. Art ()Richtige Entscheidung
  • Fehler I. Art (): Fälschliches Ablehnen von (falsch-positiv).
  • Fehler II. Art (): Fälschliches Beibehalten von (falsch-negativ).
  • Signifikanzniveau (): Wahrscheinlichkeit eines Fehlers I. Art, typischerweise 5% () oder 1% ().

📊 4. Teststatistik & Ablehnungsbereich

  • Die Teststatistik vergleicht die Stichprobenwerte mit der Annahme von .
  • Ablehnungsbereich: Bereich, in dem verworfen wird.
  • Beispiel für den t-Test für eine Stichprobe:
  • wird abgelehnt, falls:

🧪 5. t-Test für eine Stichprobe

Voraussetzung:

  • Die Zufallsvariable ist normalverteilt: .
  • Die Stichprobe ist unabhängig.

Teststatistik:

wobei

  • = Stichprobenmittelwert,

  • = Stichprobenstandardabweichung,

  • = Stichprobengröße.

  • Unter gilt:


📉 6. Multiples Testen & Fehlerkontrolle

  • Problem: Werden viele Tests gleichzeitig durchgeführt, steigt die Wahrscheinlichkeit für Fehler I. Art.
  • Lösung:
    • Bonferroni-Korrektur: Anpassung des Signifikanzniveaus .
    • Holm-Bonferroni-Verfahren: Schrittweise Anpassung.
    • False Discovery Rate (FDR): Kontrolle des erwarteten Anteils der falsch-positiven Ergebnisse.

📊 7. Power eines Tests & Fallzahlplanung

  • Power (): Wahrscheinlichkeit, einen existierenden Effekt zu entdecken.
  • Abhängig von:
    • Stichprobengröße (),
    • Variabilität (),
    • Signifikanzniveau (),
    • Effektgröße.

Formel für Power eines zweiseitigen Tests:


📊 8. Testen in verschiedenen Datensituationen

1-Stichproben-Tests

  • t-Test für eine Stichprobe
  • Wilcoxon-Vorzeichentest (nicht-parametrisch)

2-Stichproben-Tests

  • Unverbundener t-Test
  • Gepaarter t-Test
  • Mann-Whitney-U-Test (nicht-parametrisch)

Mehrstichproben-Tests

  • ANOVA (Varianzanalyse)
  • Kruskal-Wallis-Test (nicht-parametrisch)

📊 9. Tests für Zusammenhänge

  • Chi-Quadrat-Test () für Unabhängigkeit:
  • Pearson-Korrelationstest

📊 10. p-Wert & Bayes-Faktor

  • p-Wert: Wahrscheinlichkeit, unter ein mindestens so extremes Ergebnis zu erhalten.

    • → Ablehnung von .
    • → Beibehaltung von .
  • Bayes-Faktor: Verhältnis der Wahrscheinlichkeit der Daten unter zu .

    • spricht für .
    • spricht für .

📌 11. Wichtige Regeln für statistisches Testen

Hypothesen müssen vorab definiert werden.
Signifikanzniveau () muss vorab festgelegt werden.
Ergebnisse müssen korrekt interpretiert werden (klinische vs. statistische Relevanz).
Multiples Testen muss kontrolliert werden.
Ein nicht signifikantes Ergebnis bedeutet nicht, dass es keinen Effekt gibt (Power beachten!).