📌 Statistisches Testen – Cheat Sheet
🔍 1. Einführung in statistisches Testen
- Ziel: Überprüfung einer wissenschaftlichen Hypothese anhand empirischer Daten.
- Grundlage: Vergleich von beobachteten Daten mit einem erwarteten Muster unter einer Nullhypothese .
- Beispiel: Ein Mediziner vermutet, dass Babys, deren Mütter einem bestimmten Risiko ausgesetzt waren, ein geringeres Geburtsgewicht haben als 3500g.
📊 2. Hypothesen & Testentscheidung
- Nullhypothese (): Es gibt keinen Unterschied / Effekt.
- Alternativhypothese (): Es gibt einen Unterschied / Effekt.
- Zweiseitiger Test: Prüfung auf jede Abweichung von .
- Einseitiger Test: Prüfung nur auf eine bestimmte Richtung der Abweichung.
Beispiel für zweiseitigen Test:
📈 3. Fehlerarten & Signifikanzniveau
Entscheidung | ist wahr | ist falsch |
---|---|---|
nicht verwerfen | Richtige Entscheidung | Fehler II. Art () |
verwerfen | Fehler I. Art () | Richtige Entscheidung |
- Fehler I. Art (): Fälschliches Ablehnen von (falsch-positiv).
- Fehler II. Art (): Fälschliches Beibehalten von (falsch-negativ).
- Signifikanzniveau (): Wahrscheinlichkeit eines Fehlers I. Art, typischerweise 5% () oder 1% ().
📊 4. Teststatistik & Ablehnungsbereich
- Die Teststatistik vergleicht die Stichprobenwerte mit der Annahme von .
- Ablehnungsbereich: Bereich, in dem verworfen wird.
- Beispiel für den t-Test für eine Stichprobe:
- wird abgelehnt, falls:
🧪 5. t-Test für eine Stichprobe
Voraussetzung:
- Die Zufallsvariable ist normalverteilt: .
- Die Stichprobe ist unabhängig.
Teststatistik:
wobei
-
= Stichprobenmittelwert,
-
= Stichprobenstandardabweichung,
-
= Stichprobengröße.
-
Unter gilt:
📉 6. Multiples Testen & Fehlerkontrolle
- Problem: Werden viele Tests gleichzeitig durchgeführt, steigt die Wahrscheinlichkeit für Fehler I. Art.
- Lösung:
- Bonferroni-Korrektur: Anpassung des Signifikanzniveaus .
- Holm-Bonferroni-Verfahren: Schrittweise Anpassung.
- False Discovery Rate (FDR): Kontrolle des erwarteten Anteils der falsch-positiven Ergebnisse.
📊 7. Power eines Tests & Fallzahlplanung
- Power (): Wahrscheinlichkeit, einen existierenden Effekt zu entdecken.
- Abhängig von:
- Stichprobengröße (),
- Variabilität (),
- Signifikanzniveau (),
- Effektgröße.
Formel für Power eines zweiseitigen Tests:
📊 8. Testen in verschiedenen Datensituationen
1-Stichproben-Tests
- t-Test für eine Stichprobe
- Wilcoxon-Vorzeichentest (nicht-parametrisch)
2-Stichproben-Tests
- Unverbundener t-Test
- Gepaarter t-Test
- Mann-Whitney-U-Test (nicht-parametrisch)
Mehrstichproben-Tests
- ANOVA (Varianzanalyse)
- Kruskal-Wallis-Test (nicht-parametrisch)
📊 9. Tests für Zusammenhänge
- Chi-Quadrat-Test () für Unabhängigkeit:
- Pearson-Korrelationstest
📊 10. p-Wert & Bayes-Faktor
-
p-Wert: Wahrscheinlichkeit, unter ein mindestens so extremes Ergebnis zu erhalten.
- → Ablehnung von .
- → Beibehaltung von .
-
Bayes-Faktor: Verhältnis der Wahrscheinlichkeit der Daten unter zu .
- spricht für .
- spricht für .
📌 11. Wichtige Regeln für statistisches Testen
✅ Hypothesen müssen vorab definiert werden.
✅ Signifikanzniveau () muss vorab festgelegt werden.
✅ Ergebnisse müssen korrekt interpretiert werden (klinische vs. statistische Relevanz).
✅ Multiples Testen muss kontrolliert werden.
✅ Ein nicht signifikantes Ergebnis bedeutet nicht, dass es keinen Effekt gibt (Power beachten!).