Aufgabe 1
Sie interessieren sich für die Fragestellung, ob Menschen, die in der gleichen Stadt wie ihre Familie wohnen, weniger psychosoziale Schwierigkeiten haben als Menschen, die weit weg von ihrer Familie wohnen. Welche der folgenden Aussagen ist korrekt? (Mehrfachantworten sind möglich)
Zusammenfassung der benötigten Informationen zur Lösung der Aufgabe:
Studiendesigns und ihre Eignung:
Ökologische Studie (a): Analysiert Gruppen- statt Individualdaten. Nicht geeignet für individuelle Fragestellungen (Risiko des ökologischen Fehlschlusses).
Retrospektives Design (b): Nutzt vorhandene Daten oder Befragungen zur Vergangenheit. Recall-Bias könnte die Zuverlässigkeit der Familienzugehörigkeitsdaten beeinträchtigen.
Fallstudie (d): Fokussiert auf Einzelfälle oder kleine Gruppen. Geschlechterausgleich ist hier sekundär, da Generalisierbarkeit ohnehin eingeschränkt ist.
Routinedaten (c):
Oft unzureichend für psychosoziale Outcomes, da diese nicht standardisiert erfasst werden (z. B. Krankenakten).
Konfundierende Variablen:
- Geschlecht könnte ein Störfaktor sein, ist aber in Fallstudien weniger relevant als in größeren Designs (z. B. Fall-Kontroll-Studien).
Hinweis zur Lösung:
Die korrekte Antwort liegt in der kritischen Bewertung der Eignung der Studiendesigns und der Datenqualität (v. a. Outcome-Erfassung in Routinedaten).
(a) Die Fragestellung lässt sich sehr gut durch eine ökologische Studie beantworten.
- Falsch
Erklärung
Ökologische Studien analysieren Gruppenmerkmale (z. B. Stadtteile, Länder), nicht individuelle Daten. Die Fragestellung bezieht sich aber auf individuelle psychosoziale Schwierigkeiten in Abhängigkeit vom Wohnort der Familie. Ein ökologischer Fehlschluss (Gruppeneffekte ≠ individuelle Effekte) wäre hier sehr wahrscheinlich.
(b) Sie sollten ein retrospektives Studiendesign wählen, um zuverlässige Informationen zur Familienzugehörigkeit erheben zu können.
- Falsch
Erklärung
Ein retrospektives Design (z. B. Befragung zur Vergangenheit) birgt Risiken wie Recall-Bias: Personen könnten den früheren Wohnort ihrer Familie falsch angeben oder psychosoziale Probleme rückwirkend verzerrt bewerten. Zuverlässige Daten zur Familienzugehörigkeit wären fraglich.
(c) Wenn Sie Routinedaten nutzen, um die Fragestellung zu beantworten, ist es fragwürdig, ob das Outcome in diesen Routinedaten gut erhoben wurde.
- Wahr
Erklärung
Routinedaten (z. B. Krankenkassendaten) erfassen psychosoziale Outcomes oft unzureichend, da sie nicht standardisiert oder nur bei schweren Diagnosen dokumentiert werden. Die Fragestellung erfordert aber eine präzise Erfassung von “psychosozialen Schwierigkeiten”, die in solchen Daten selten abgebildet wird.
(d) Wenn Sie eine Fallstudie benutzen, um die Fragestellung zu beantworten, sollten Sie darauf achten, dass das Geschlechterverhältnis in Ihrer Studie ausgewogen ist.
- Falsch
Erklärung
Bei Fallstudien (Einzelfallanalysen) ist die Generalisierbarkeit ohnehin eingeschränkt. Ein Geschlechterausgleich wäre hier sekundär, da das Ziel nicht Repräsentativität, sondern Tiefenanalyse ist.
📌 Ausführliche Zusammenfassung zur Lösung der Aufgabe:
1. Studiendesigns und ihre Eignung
(a) Ökologische Studie
- Definition: Analysiert Daten auf Gruppenebene (z. B. Städte, Regionen) statt auf Individualebene.
- Problem für die Fragestellung:
- Die Frage bezieht sich auf individuelle psychosoziale Schwierigkeiten in Abhängigkeit vom individuellen Wohnort relativ zur Familie.
- Ein ökologischer Fehlschluss (falsche Rückschlüsse von Gruppen- auf Individualebene) ist wahrscheinlich.
- Beispiel: Selbst wenn Städte mit vielen familiennahen Bewohnern niedrigere psychosoziale Belastungen zeigen, heißt das nicht, dass dies auf Einzelpersonen zutrifft.
- Fazit: Aussage (a) ist falsch.
(b) Retrospektives Studiendesign
- Definition: Erhebung von Daten aus der Vergangenheit (z. B. über Befragungen oder vorhandene Datensätze).
- Probleme:
- Recall-Bias: Selbstangaben zur Entfernung von der Familie (z. B. “Wie weit wohnen Sie von Ihrer Familie entfernt?”) sind fehleranfällig.
- Fehlende Kontrolle über Confounder: Retrospektive Studien erfassen oft nicht alle Störfaktoren (z. B. sozioökonomischer Status, Persönlichkeitsmerkmale), die sowohl die Wohnortwahl als auch psychosoziale Gesundheit beeinflussen.
- Alternative: Ein prospektives Design (Erhebung über einen längeren Zeitraum) wäre besser geeignet.
- Fazit: Aussage (b) ist falsch, da retrospektive Daten für diese Fragestellung unzuverlässig sind.
(c) Routinedaten zur Outcome-Erfassung
- Routinedaten: Daten, die nicht für Forschungszwecke, sondern z. B. für die Krankenversorgung erhoben werden (z. B. ICD-Diagnosen in Krankenakten).
- Probleme bei psychosozialen Outcomes:
- Psychosoziale Schwierigkeiten (z. B. Stress, Einsamkeit) werden in Routinedaten nicht standardisiert erfasst.
- Nur extreme Fälle (z. B. diagnostizierte Depressionen) werden dokumentiert, leichte bis moderate Probleme bleiben unberücksichtigt.
- Messfehler: Die Daten spiegeln nicht die subjektive psychosoziale Belastung wider, sondern nur medizinisch kodierte Ereignisse.
- Fazit: Aussage (c) ist korrekt.
(d) Fallstudie und Geschlechterverhältnis
- Fallstudie: Untersucht Einzelfälle oder kleine Gruppen detailliert (z. B. Interviews mit Menschen, die weit von ihrer Familie entfernt wohnen).
- Relevanz des Geschlechterverhältnisses:
- Geschlecht kann ein Confounder sein (z. B. Frauen berichten möglicherweise häufiger über psychosoziale Belastungen).
- ABER: Fallstudien haben per Definition eine geringe Fallzahl und zielen nicht auf statistische Generalisierbarkeit ab. Ein ausgeglichenes Geschlechterverhältnis ist daher nicht prioritär.
- Der Hauptfokus liegt auf Tiefe der Daten, nicht auf Repräsentativität.
- Fazit: Aussage (d) ist falsch.
2. Wichtige Konzepte im Hintergrund
- Confounder: Variablen, die sowohl mit der Exposition (Wohnort) als auch dem Outcome (psychosoziale Schwierigkeiten) zusammenhängen (z. B. Einkommen, soziales Netzwerk).
- Ökologischer Fehlschluss: Falsche Annahme, dass Zusammenhänge auf Gruppenebene auch für Individuen gelten.
- Recall-Bias: Systematische Verzerrung durch fehlerhafte Erinnerung von Studienteilnehmern.
Korrekte Antworten
- Richtig ist nur (c).
- Begründung:
- Routinedaten sind für psychosoziale Outcomes unzuverlässig.
- Die anderen Aussagen vernachlässigen zentrale methodische Limitationen (ökologischer Fehlschluss, Recall-Bias, Ziel von Fallstudien).
Aufgabe 2
Kreuzen Sie im nachfolgenden nur die wahren Aussagen an.
(a) Die Pharmakokinetik untersucht den zeitlichen Verlauf des Medikaments im Körper.
-
Wahr
- Die Pharmakokinetik befasst sich mit der Absorption, Distribution, dem Metabolismus und der Elimination eines Medikaments im Körper [Präklinische_Studien.pdf, Klinische_Studien.pdf].
(b) In Phase 2 einer klinischen Studie steht die Untersuchung von Pharmakokinetik, Pharmakodynamik und Toxizität im Menschen im Vordergrund.
-
Falsch
- Die Untersuchung von Pharmakokinetik, Pharmakodynamik und Toxizität im Menschen findet in Phase 1 der klinischen Studien statt [Klinische_Studien.pdf]. In Phase 2 wird die Wirksamkeit des Medikaments an Patienten untersucht [Klinische_Studien.pdf, merged_document.pdf].
(c) Bei einem RCT mit einer einfachen Randomisierung kann aufgrund des Zufalls nicht sichergestellt werden, dass die verschiedenen Gruppen strukturgleich sind.
-
Wahr
- Eine einfache Randomisierung kann zufällige Unterschiede zwischen den Gruppen verursachen und garantiert keine strukturgleichen Gruppen bezüglich aller Einflussfaktoren [Matching.pdf]. Es ist möglich, dass durch Zufall ungleiche Gruppengrößen entstehen.
(d) Bei der ITT-Analyse werden die Patienten gemäß der Behandlung, die der Patient tatsächlich erhalten hat bzw. zuletzt erhalten hat, untersucht.
-
Falsch
- Die Intention-to-Treat (ITT)-Analyse wertet Patienten gemäß der ursprünglich zugewiesenen Behandlung aus. Die “As-Treated” (AT)-Analyse wertet die Patienten gemäß der tatsächlich erhaltenen Behandlung aus.
(e) Um nachzuweisen, dass ein Medikament sicher ist, ist das α-Signifikanzniveau wichtiger als eine möglichst große statistische power.
-
Falsch
- Bei der Prüfung der Sicherheit eines Medikaments ist eine ausreichende statistische Power (1-β) wichtiger als das α-Niveau [6_Statistisches_Testen_24_25.pdf]. Eine hohe Power ist notwendig, um einen tatsächlich vorhandenen Effekt zu erkennen und einen Fehler 2. Art zu vermeiden, während ein niedriger α-Wert die Wahrscheinlichkeit eines Fehlers 1. Art minimiert
Aufgabe 3
Was wird durch das nachfolgende Modell beschrieben? Wie können und interpretiert werden? Was ist der Unterschied zu SIR-Modellen in stetiger Zeit?
Das gegebene Modell ist eine Erweiterung des diskreten SIR-Modells, das die Dynamik von Infektionskrankheiten über diskrete Zeitschritte beschreibt. Es modelliert die Veränderung von anfälligen (), infizierten () und erholten () Personen:
- : Anfällige Personen nehmen ab durch Infektionen () und zu durch Genesung von Infizierten () und Verlust der Immunität von Erholten ().
- : Infizierte Personen nehmen zu durch neue Infektionen () und ab durch Genesung ( und ).
- : Erholte Personen nehmen zu durch Genesung von Infizierten () und ab durch Verlust der Immunität ().
Die Parameter werden wie folgt interpretiert:
- : Inzidenzrate, die Wahrscheinlichkeit einer Infektion für anfällige Personen.
- : Rate der Genesung von Infizierten zurück in den anfälligen Zustand, modelliert Reinfektion.
- : Rate der Genesung von Infizierten in den erholten Zustand.
- : Rate des Immunitätsverlusts von Erholten zurück in den anfälligen Zustand, modelliert zeitlich begrenzte Immunität.
Im Vergleich zu SIR-Modellen in stetiger Zeit, die Differentialgleichungen verwenden, um die Dynamik kontinuierlich zu beschreiben, verwendet dieses Modell diskrete Zeitpunkte. Die Parameter und sind eine Erweiterung gegenüber klassischen SIR Modellen, die keine Reinfektion oder Verlust der Immunität modellieren.
Aufgabe 4
In seinem Artikel A Dirty Dozen: Twelve P-Value Misconceptions (2008) beleuchtet Steven Goodman zwölf in der Literatur weit verbreitete Fehlinterpretationen des p-Werts. Erklären Sie in den folgenden Beispielen kurz, worin der Irrtum liegt.
Misconception #2
Ein nichtsignifikanter Unterschied (z. B. ) bedeutet, dass es keinen Unterschied zwischen den jeweiligen Gruppen gibt.
- Es gibt einen Unterschied zwischen den jeweiligen Gruppen, aber dieser ist einfach für den p-Wert 0.05 nicht signifikant
Misconception #4
Studien mit p-Werten auf verschiedenen Seiten von 0.05 widersprechen sich.
- Falsch, Studien stehen nur dann im statistischen Widerspruch, wenn der Unterschied ziwschen ihren Ergebnissen wahrscheinlichn nicht zufällig aufgetreten ist. Also wenn ihre Konfidenzintervalle wenig oder gar keine Überlappung zeigen.
Misconception #9
bedeutet, dass, falls die Nullhypothese verworfen wird, die Wahrscheinlichkeit für einen Fehler 1. Art 5% beträgt.
- Die Wahrscheinlichkeit eines Fehlers 1. Art ist 5%, wenn die Nullhypothese tatsächlich wahr ist. Wenn man jedoch weiß, dass die Nullhypothese falsch ist, dann ist die Wahrscheinlichkeit für einen Fehler 1. Art gleich Null, unabhängig vom p-Wert
Aufgabe 5
In einem gegebenen Jahr absolvieren 30 Studentengruppen das statistische Praktikum als Teil ihres Bachelorstudiums. Idealerweise nehmen wir an, dass jede der Gruppen ihre Hauptforschungsfrage mit jeweils genau einem Test überprüft. Bei den Tests handle es sich dabei um Tests mit einfacher Nullhypothese, die das Signifikanzniveau voll ausschöpfen, womit dies direkt der Wahrscheinlichkeit für einen Fehler 1. Art entspricht. Wir nehmen weiter an, dass die Datensätze der verschiedenen Praktikumsgruppen unabhängig voneinander erhoben wurden. Im Folgenden wollen wir die kollektive Wahrscheinlichkeit für den Fehler 1. Art kontrollieren.
(a) Leiten Sie her, welches Signifikanzniveau die einzelnen Gruppen ansetzen müssen, um auf einem 5%-Niveau bestätigen zu können, dass zumindest eine der Gruppen einen Effekt gefunden hat. (Stichwort: gemeinsamer Test)
Um das Signifikanzniveau für einzelne Gruppen zu bestimmen, sodass die Wahrscheinlichkeit für einen Fehler 1. Art für mindestens eine Gruppe bei 5% liegt, muss das Konzept des multiplen Testens berücksichtigt werden.
Die gemeinsame Nullhypothese (H_\bar{^0}) besagt, dass für alle Tests die jeweilige Nullhypothese () gilt. Die gemeinsame Alternativhypothese (H_\bar1) besagt, dass es mindestens einen Test gibt, für den nicht gilt.
Um ein Signifikanzniveau von für den gemeinsamen Test zu erreichen, muss das Signifikanzniveau für die einzelnen Tests angepasst werden. Bei k voneinander unabhängigen Tests, die jeweils mit dem Signifikanzniveau durchgeführt werden, ergibt sich das Signifikanzniveau des gemeinsamen Tests () nach folgender Formel:
>[!tip] Umgestellt nach dem individuellen Signifikanzniveau ($\alpha$): > >Formel zur Berechnung des gemeinsamen Signifikanzniveaus (
\alpha^*
)
\alpha = 1 - (1 - \alpha^*)^{1/k}
>[!info]- Schritte zum Umstellen > > >Die Formel zur Berechnung des gemeinsamen Signifikanzniveaus (\(\alpha^*\)) lautet: >\alpha^* = 1 - (1 - \alpha)
Um diese nach dem individuellen Signifikanzniveau (\(\alpha\)) umzustellen, folgen die Schritte:\begin{aligned} &1. \ \text{Gegebene Formel:} \ &\ \ \alpha^_ = 1 - (1 - \alpha)^k \ &2. \ \text{Subtrahiere (1) auf beiden Seiten:} \ &\ \ \alpha^_ - 1 = -(1 - \alpha)^k \ &3. \ \text{Multipliziere mit (-1):} \ &\ \ 1 - \alpha^_ = (1 - \alpha)^k \ &4. \ \text{Ziehe die (k)-te Wurzel:} \ &\ \ (1 - \alpha^)^{1/k} = 1 - \alpha \ &5. \ \text{Subtrahiere (1):} \ &\ \ (1 - \alpha^)^{1/k} - 1 = -\alpha \ &6. \ \text{Multipliziere mit (-1):} \ &\ \ \alpha = 1 - (1 - \alpha^_)^{1/k} \ \end{aligned}
Umgestellt ergibt sich:
Setzt man nun und in die Formel ein, ergibt sich:
Die einzelnen Gruppen müssen ein Signifikanzniveau von etwa 0.0017 ansetzen, um auf einem 5%-Niveau bestätigen zu können, dass zumindest eine der Gruppen einen Effekt gefunden hat. Eine gängige Methode ist die Bonferroni-Korrektur:
Diese Methode ist konservativer als die obige Berechnung. Eine weniger konservative Alternative ist die Benjamini-Hochberg-Prozedur, die die False Discovery Rate (FDR) kontrolliert.
(b) Bestimmen Sie das Signifikanzniveau, das die Gruppen laut Bonferroni-Methode ansetzen müssen, um die Family-wise Error Rate auf maximal 5% zu beschränken. Vergleichen Sie mit dem Signifikanzniveau aus (a) und diskutieren Sie, woran der Unterschied liegt.
Bonferroni-Korrektur zur Anpassung des Signifikanzniveaus (
\alpha^*
)
- : Angepasstes lokales Signifikanzniveau pro Test nach der Bonferroni-Korrektu
- : Ursprüngliches globales Signifikanzniveau (z. B. 0,05)
- : Anzahl der durchgeführten Tests oder Vergleiche
Die Formel beschreibt, wie das lokale Signifikanzniveau () bestimmt wird, um das globale Signifikanzniveau () bei multiplen Tests konstant zu halten.
Beispiel: Hypothesentest mit Bonferroni-Korrektur
Gegeben seien die -Werte
dreier Hypothesentests, die eine Hypothesenfamilie bilden. Unter Vernachlässigung der multiplen Testung und alleiniger Betrachtung lokaler Signifikanzniveaus
erfolgt die Ablehnung der Nullhypothesen 1 und 2, da
während die dritte Hypothese nicht abgelehnt wird, da
Berücksichtigt man jedoch die Bonferroni-Korrektur (mit
so erfolgt nur noch die Ablehnung der Nullhypothese 1, da
Erklärung, Sinn und Interpretation
Warum wird nur noch die Nullhypothese 1 abgelehnt?
Die Bonferroni-Korrektur reduziert das lokale Signifikanzniveau , um das Risiko eines Fehlers 1. Art in der gesamten Hypothesenfamilie zu begrenzen. Dadurch wird sichergestellt, dass die Wahrscheinlichkeit, mindestens eine falsche Nullhypothese abzulehnen, bei bleibt.
Ohne die Korrektur wäre die Wahrscheinlichkeit für einen Fehler 1. Art bei mehreren Tests höher als das globale Signifikanzniveau, da sich die Fehlerwahrscheinlichkeiten der einzelnen Tests summieren. Für drei Tests könnte die Wahrscheinlichkeit beispielsweise näher an liegen, was deutlich über liegt.
Mit der Korrektur wird nur die Nullhypothese 1 abgelehnt, da nur erfüllt ist. Die anderen -Werte (für Tests 2 und 3) liegen über dem strengeren .
War die Ablehnung der Nullhypothese 2 ohne Korrektur falsch?
Nicht unbedingt. Die Ablehnung der Nullhypothese 2 basierte auf einem lokalen Signifikanzniveau von und war unter dieser Annahme korrekt.
Allerdings bestand ein erhöhtes Risiko, dass diese Ablehnung durch Zufall (Fehler 1. Art) zustande kam. Die Bonferroni-Korrektur macht die Entscheidung strenger, um dieses Risiko zu minimieren. Mit der Korrektur reicht die Evidenz (der niedrige -Wert) für Test 2 nicht mehr aus.
Warum macht die Bonferroni-Korrektur Sinn?
Fehlerkontrolle: Sie schützt vor übermäßiger Fehleranfälligkeit, wenn mehrere Hypothesen gleichzeitig getestet werden.
Konservative Annahmen: In sensiblen Bereichen, z. B. in der Medizin oder Pharmakologie, sind strenge Fehlergrenzen notwendig, um falsche Entscheidungen mit schwerwiegenden Konsequenzen zu vermeiden.
Klarheit der Ergebnisse: Indem nur die Nullhypothesen abgelehnt werden, die mit einem sehr niedrigen -Wert signifikant sind, wird sichergestellt, dass nur starke Evidenz zu Ablehnungen führt.
Interpretation der neuen Ergebnisse:
- Die Ablehnung der Nullhypothese 1 zeigt, dass es sehr starke Evidenz gegen diese Hypothese gibt, selbst unter den strengen Bedingungen der Bonferroni-Korrektur.
- Die Nicht-Ablehnung von Test 2 bedeutet nicht, dass die Nullhypothese “wahr” ist, sondern dass die Evidenz (in Form des -Werts) nicht ausreicht, um sie mit der globalen Fehlerkontrollgrenze von 5 % abzulehnen.
- Ohne die Korrektur wäre die Aussage von Test 2 weniger vertrauenswürdig, da die Wahrscheinlichkeit, dass die Ablehnung ein Zufallsfehler ist, höher wäre.
Im Vergleich zu a)
- Die Bonferroni-Korrektur ist strenger, da sie eine einfachere aber stärkere Anpassung des Signifikanzniveaus vornimmt, um die Wahrscheinlichkeit für mindestens einen Fehler 1. Art zu begrenzen.
Aufgabenstellung für c) und d)
Nun testen alle Gruppen auf einem Signifikanzniveau von 5%, ob der jeweils interessierende Effekt vorliegt. Wir behalten die obigen Annahmen bei. Nehmen wir außerdem an, dass bei 20 der Projektgruppen tatsächlich ein Effekt vorliegt, wobei dieser in 50% der Fällen auch erkannt wird. Bei den anderen 10 Gruppen liegt in Wirklichkeit kein Effekt vor und insgesamt können unter allen Gruppen 11 die Nullhypothese verwerfen.
(c) Wie viele False-Positives, False-Negatives, True-Positives und True-Negatives gibt es?
Konfusionsmatrix & Fehlertypen mit Bezug zu
H_0
- True Positive (TP): falsch, korrekt abgelehnt (Effekt existiert, wird erkannt). ✅
- False Positive (FP): wahr, fälschlich abgelehnt (Typ-I-Fehler: Effekt angenommen, obwohl keiner existiert). ❌
- True Negative (TN): wahr, korrekt nicht abgelehnt (Kein Effekt, korrekt erkannt). ✅
- False Negative (FN): falsch, fälschlich nicht abgelehnt (Typ-II-Fehler: Effekt übersehen, obwohl vorhanden). ❌
Fehlertypen im Kontext von :
- Typ-I-Fehler (FP):
- wird abgelehnt, obwohl sie wahr ist.
- Beispiel: Ein Medikament wirkt nicht, wird aber fälschlich als wirksam eingestuft.
- Typ-II-Fehler (FN):
- wird nicht abgelehnt, obwohl sie falsch ist.
- Beispiel: Ein Medikament wirkt, wird aber fälschlich als unwirksam eingestuft.
Merke:
- Typ-I = “Alarm ohne Feuer” (falscher Alarm).
- Typ-II = “Feuer ohne Alarm” (gefährliches Übersehen).
💡 (Nullhypothese) ist die “Standardannahme” (z. B. “kein Effekt”). Die Entscheidung basiert auf den Daten, kann aber fehlerhaft sein!
Gedankengang
- 20 Gruppen haben Effekt
- 10 von diesen haben jedoch einen Fehler 2 Art ( wird nicht abgelehnt)
- 10 Gruppen haben keinen Effekt
- 11 Lehnen ab
Lösung
- FN = 10
- TP = 10
- FP = 1
- TN = 9
Erklärung
- False Negatives (FN = 10): Von den 20 Gruppen, die tatsächlich einen Effekt haben, werden bei 10 Gruppen die Nullhypothese nicht abgelehnt. Diese Fälle stellen Fehler 2. Art dar.
- True Positives (TP = 10): Die verbleibenden 10 Gruppen mit tatsächlichem Effekt lehnen korrekt die Nullhypothese ab.
- False Positives (FP = 1): Insgesamt werden 11 Gruppen die Nullhypothese ablehnen. Davon sind 10 korrekt (True Positives), sodass nur 1 Gruppe fälschlicherweise die Nullhypothese ablehnt.
- True Negatives (TN = 9): Von den 10 Gruppen ohne tatsächlichen Effekt werden 9 korrekt die Nullhypothese nicht ablehnen.
(d) Berechnen Sie die Family-wise Error Rate.
Formel für die Familienfehlerwahrscheinlichkeit (FWER)
- FWER: Familienfehlerwahrscheinlichkeit
- : Signifikanzniveau pro Test
- : Anzahl der durchgeführten Tests
Erklärung der FWER
Die Familienfehlerwahrscheinlichkeit (FWER) gibt die Wahrscheinlichkeit an, dass bei einer Gruppe von unabhängigen Tests mindestens einer dieser Tests einen Fehler 1. Art (falsch positiv) aufweist.
- (Signifikanzniveau pro Test): Dies ist die Wahrscheinlichkeit, mit der ein einzelner Test die Nullhypothese fälschlicherweise ablehnt, obwohl sie wahr ist.
- (Anzahl der Tests): Die Gesamtzahl der unabhängigen durchgeführten Tests.
Die Formel
berechnet die Wahrscheinlichkeit, dass mindestens einer der Tests ein falsch positives Ergebnis liefert.
Beispiel:
Wenn und , dann ist die FWER:Das bedeutet, es besteht etwa eine 78,5 %ige Wahrscheinlichkeit, dass mindestens ein Test ein falsch positives Ergebnis liefert. Um die FWER zu kontrollieren und diese Wahrscheinlichkeit zu reduzieren, können Anpassungsmethoden wie die Bonferroni-Korrektur verwendet werden.
- → 78,5 %ige Wahrscheinlichkeit, dass mindestens ein Test ein falsch positives Ergebnis liefert