Ausführliche Zusammenfassung der Vorlesung: Statistik und Hypothesentests im Wissenschaftlichen Arbeiten

Einleitung

In der heutigen Vorlesung wurden zentrale Themen der Statistik und des wissenschaftlichen Arbeitens behandelt, insbesondere im Kontext von Hypothesentests, Replikationsmobilisierung und der Replikationskrise. Der Dozent betonte die Bedeutung korrekter Testmethoden und die Herausforderungen, die durch falsche Praktiken entstehen können. Zudem wurden philosophische Grundlagen und verschiedene Denkschulen in der Statistik diskutiert, mit einem besonderen Fokus auf die Frequentisten- und Bayesianischen Ansätze.

Replikationsmobilisierung und Replikationskrise

Replikationsmobilisierung

Definition: Die Anstrengungen, wissenschaftliche Studien zu reproduzieren, um deren Ergebnisse zu verifizieren.
Bedeutung: Essenziell zur Sicherstellung der Validität und Zuverlässigkeit wissenschaftlicher Erkenntnisse.
Herausforderungen:
- Unterschiedliche Testmethoden in verschiedenen Fachbereichen.
- Falsche und eingebürgerte Testpraktiken, die auf philosophischen Konzepten basieren.

Replikationskrise

Beschreibung: Ein weit verbreitetes Problem in der Wissenschaft, bei dem viele Studienergebnisse nicht reproduzierbar sind.
Ursachen:
- Fehlende oder falsche Anwendung statistischer Tests.
- Selektive Berichterstattung und p-Hacking.
- Unzureichende Transparenz in der Methodik.

Philosophische Grundlagen der Statistik

Deduktive vs. Induktive Logik

Deduktive Logik: Schlussfolgerungen basieren auf allgemeinen Prinzipien und Axiomen (z.B. Mathematik).
Induktive Logik: Schlussfolgerungen basieren auf spezifischen Beobachtungen und Wahrscheinlichkeiten (z.B. empirische Wissenschaften).
Beispiel: Der Induktionsschluss in der Statistik, wie das Beispiel der weißen Schwäne zeigt, wo man aus begrenzten Beobachtungen allgemeine Aussagen ableitet.

Denkschulen: Frequentisten vs. Bayesians

Frequentisten:
- Fokus auf langfristige Häufigkeiten.
- Hypothesentests basieren auf der Wahrscheinlichkeit, Daten unter der Nullhypothese zu beobachten.
- Beispiel: Klassischer T-Test.
Bayesians:
- Integrieren Vorwissen und subjektive Wahrscheinlichkeiten.
- Nutzen Bayes’sche Inferenz zur Aktualisierung von Wahrscheinlichkeiten.
- Beispiel: Bayesianische Modelle und Bayes-Faktoren.

Hypothesentests

Grundlagen

Hypothese:
- Nullhypothese (H₀): Kein Effekt oder kein Unterschied.
- Alternativhypothese (H₁): Es besteht ein Effekt oder ein Unterschied.
Teststatistik: Ein Wert, der aus den Daten berechnet wird und zur Entscheidung über H₀ und H₁ verwendet wird.
Signifikanzniveau ( $α$ ): Die maximale Wahrscheinlichkeit, einen Fehler erster Art (falsch positive) zu begehen (z.B. 5%).

Arten von Fehlern

Fehler erster Art ( $α$ -Fehler): H₀ wird abgelehnt, obwohl sie wahr ist.
Fehler zweiter Art ( $β$ -Fehler): H₀ wird nicht abgelehnt, obwohl H₁ wahr ist.
Power ( $1 - β$ ): Die Wahrscheinlichkeit, H₀ korrekt abzulehnen, wenn H₁ wahr ist.

Testverfahren

T-Test

Anwendung: Vergleich von Mittelwerten.
Voraussetzungen:
- Normalverteilung der Variablen.
- Unabhängige Stichproben.
Beispiel: Vergleich des Geburtsgewichts von Risiko-Babys mit einem Sollwert von 3.500 Gramm.
Typen:
- Ein-Stichproben-T-Test: Vergleich eines Stichprobenmittelwerts mit einem bekannten Wert.
- Zwei-Stichproben-T-Test: Vergleich von Mittelwerten zweier unabhängiger Gruppen.
- Verbundenen-Stichproben-T-Test: Vergleich von Mittelwerten zweier abhängiger Gruppen (z.B. Vorher-Nachher-Messungen).
Formel für den T-Test:

t = \frac{\bar{X} - \mu_0}{\frac{s}{\sqrt{n}}}

wobei $\bar{X}$ der Stichprobenmittelwert, $\mu_0$ der Vergleichswert, $s$ die Stichprobenstandardabweichung und $n$ die Stichprobengröße ist. #### F-Test - **Anwendung**: Vergleich von Varianzen. - **Anwendung in der Varianzanalyse (ANOVA)**: Untersuchung der Unterschiede zwischen mehreren Gruppenmittelwerten. - **Formel für den F-Test**:

F = \frac{\text{Varianz zwischen den Gruppen}}{\text{Varianz innerhalb der Gruppen}}

#### Chi-Quadrat-Test - **Anwendung**: Untersuchung von Zusammenhängen in Kontingenztafeln. - **Beispiel**: Zusammenhang zwischen Geschlecht und Raucherstatus. - **Formel für den Chi-Quadrat-Test**:

\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}

wobei $O_i$ die beobachteten Häufigkeiten und $E_i$ die erwarteten Häufigkeiten sind. #### Non-parametrische Tests - **Einsatz**: Bei Verletzung der Normalverteilungsannahme. - **Beispiele**: - **Wilcoxon-Test**: Vergleich von zwei verbundenen Stichproben. - **Mann-Whitney-U-Test**: Vergleich von zwei unabhängigen Stichproben. - **Kruskal-Wallis-Test**: Vergleich von mehr als zwei unabhängigen Stichproben. ### Multiple Testing Probleme - **Problem**: Erhöhte Wahrscheinlichkeit von Fehlern erster Art bei mehrfachen Tests. - **Lösungen**: - **Bonferroni-Korrektur**: Strikte Anpassung des Signifikanzniveaus durch Division von $\alpha$ durch die Anzahl der Tests.

\alpha_{\text{korregiert}} = \frac{\alpha}{m}

wobei $m$ die Anzahl der durchgeführten Tests ist. - **False Discovery Rate (FDR)**: Kontrolle des erwarteten Anteils falsch positiver Ergebnisse.

\text{FDR} = \frac{\text{Anzahl der falsch positiven Ergebnisse}}{\text{Anzahl der abgelehnten Nullhypothesen}}

- **Min-P-Projektur**: Anpassung der Teststatistik basierend auf dem kleinsten p-Wert. ### Power-Analyse - **Ziel**: Bestimmung der notwendigen Stichprobengröße, um eine gewünschte Power zu erreichen. - **Formel für die Power**:

\text{Power} = 1 - \beta = P(\text{Test } \text{Rejection} \mid H_1 \text{ wahr})

- **Faktoren**: - **Effektgröße ($\delta$)**: Größere Effekte erfordern kleinere Stichproben. - **Signifikanzniveau ($\alpha$)**: Striktere Niveaus erfordern größere Stichproben. - **Variabilität der Daten ($\sigma^2$)**: Höhere Variabilität erfordert größere Stichproben. ## Praktische Aspekte und Herausforderungen ### Teststrategien und Fehlpraktiken - **p-Hacking**: Selektives Testen und Berichten von Tests, um signifikante Ergebnisse zu erzielen. - **Datenmanipulation**: Anpassung von Datenvorverarbeitungsschritten, um gewünschte Ergebnisse zu erhalten. - **Model Selection**: Auswahl von Modellen basierend auf den Daten, was zu Überanpassung und verzerrten Ergebnissen führen kann. ### Fallbeispiele #### Klinische Studien - **Beispiel**: Untersuchung des Zusammenhangs zwischen übermäßiger Sauerstoffsättigung während neurochirurgischer Eingriffe und postoperativen Komplikationen. - **Herausforderungen**: - **Missing Values**: Umgang mit fehlenden Daten. - **Outliers**: Identifikation und Behandlung von Ausreißern. - **Modellwahl**: Auswahl des geeigneten statistischen Modells. - **Ethik**: Sicherstellung ethischer Standards bei der Datenerhebung und -analyse. #### Softwareentwicklung - **Beispiel**: Entwicklung und Testen von Software für ein Mobilfunknetz mit hohen Anforderungen an Fehlerfreiheit und Funktionalität. - **Herausforderungen**: - **Hohe Anzahl an Tests**: Viele verschiedene Tests müssen durchgeführt werden, um die Funktionalität zu gewährleisten. - **Lange Abnahmefristen**: Verzögerungen bei der Abnahme können zu Liquiditätsproblemen führen. - **Finanzielle Risiken**: Hohe Vorfinanzierungskosten erfordern sorgfältige Finanzplanung. ### Umgang mit großen Kunden und Liquiditätsproblemen - **Problematik**: Große Kunden können Abnahmeprozesse verzögern, was zu Liquiditätsengpässen bei kleinen Dienstleistern führt. - **Lösungen**: - **Anzahlungen**: Vorauszahlungen zur Sicherung der Finanzierung. - **Teilabnahmen**: Abnahme und Zahlung von Projektteilen zur kontinuierlichen Liquidität. - **Vertragsgestaltung**: Klare Regelungen zu Abnahmefristen und Konsequenzen bei Verzögerungen. ### Risiken für kleine Dienstleister - **Finanzielle Belastung**: Kleine Unternehmen müssen oft hohe Vorleistungen erbringen, bevor sie bezahlt werden. - **Beispiel**: Ein Softwarehaus mit zehn Mitarbeitern benötigt möglicherweise 1,2 Millionen Euro, um ein Jahr lang vorfinanziert arbeiten zu können. - **Strategien zur Risikominimierung**: - **Vereinbarung von Anzahlungen** - **Teilabnahmen** - **Verhandlung von Zahlungsbedingungen** ## Wissenschaftliche Praxis und gute Methoden ### Präzise Hypothesenformulierung - **Wichtigkeit**: Präzise und spezifische Hypothesen reduzieren das Risiko von Fehlinterpretationen und erhöhen die Validität der Tests. - **Fehlerquellen**: - **Large Hypothesen**: Zu breit gefasste Hypothesen können zu einer Vielzahl von Tests führen und das Risiko von Fehlern erster Art erhöhen. - **Post-hoc Hypothesenbildung**: Bildung von Hypothesen nach der Datenanalyse führt zu Verzerrungen und Überanpassung. ### Testauswahl und Modellierung - **Auswahl der richtigen Tests**: Abhängig von den Datenmerkmalen (z.B. Verteilung, Skalenniveau) und der Forschungsfrage. - **Modellierung**: Nutzung von Trainings- und Testdatensätzen zur Vermeidung von Overfitting und zur Sicherstellung der Generalisierbarkeit. - **Beispiel**: Aufteilung eines Datensatzes in 70% Training und 30% Test, um die Modellleistung zu validieren. ### Assoziationsmaße und Korrelationen - **Korrelationstypen**: - **Pearson-Korrelation ($r$)**: Misst den linearen Zusammenhang zwischen zwei Variablen.

r = \frac{\sum*{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum*{i=1}^{n} (Xi - \bar{X})^2 \sum{i=1}^{n} (Y_i - \bar{Y})^2}}}

- **Spearman-Rangkorrelation ($\rho$)**: Misst den monotonen Zusammenhang zwischen zwei Rangvariablen.

\rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)}

wobei $d_i$ die Differenz der Rangwerte und $n$ die Anzahl der Paare ist. - **Mutual Information ($I(X; Y)$)**: Misst die gegenseitige Abhängigkeit zwischen zwei Variablen, unabhängig von der Art des Zusammenhangs.

I(X; Y) = \sum*{x \in X} \sum*{y \in Y} p(x, y) \log \left( \frac{p(x, y)}{p(x)p(y)} \right)

- **Anwendung**: Untersuchung von Zusammenhängen zwischen Variablen in verschiedenen Datensätzen und Forschungsfragen. ### Modellwahl und Overfitting - **Problematik**: Auswahl von Modellen basierend auf den Daten kann zu Überanpassung und verzerrten Ergebnissen führen. - **Lösungen**: - **Trainings- und Testdatensätze**: Aufteilung der Daten zur Validierung der Modellleistung. - **Cross-Validation**: Wiederholte Aufteilung der Daten zur robusten Schätzung der Modellleistung. - **Beispiel**: Ein Modell, das auf den Trainingsdaten perfekt passt, zeigt auf den Testdaten eine schlechte Generalisierungsleistung. ### Explorative vs. Konfirmatorische Analysen - **Explorative Analysen**: Suche nach Mustern und Zusammenhängen ohne vorher festgelegte Hypothesen. - **Problem**: Hohe Wahrscheinlichkeit von Fehlern erster Art durch viele durchgeführte Tests. - **Konfirmatorische Analysen**: Überprüfung vorher festgelegter Hypothesen. - **Vorteil**: Geringere Wahrscheinlichkeit von Fehlern erster Art durch begrenzte Anzahl von Tests. ### Fehlende Werte und Ausreißer - **Handling Missing Values**: - **Imputation**: Ersetzen fehlender Werte durch plausible Schätzwerte (z.B. Mittelwert, Median). - **Beispiel**: Verwendung von Machine Learning Algorithmen zur Imputation fehlender Sauerstoffsättigungsdaten. - **Behandlung von Ausreißern**: - **Identifikation**: Statistische Methoden zur Erkennung von ungewöhnlichen Datenpunkten. - **Beispiel**: Entfernen oder Korrigieren von extremen Geburtsgewichten, die auf Messfehler hinweisen könnten. ## Weitere Themen ### Induktive und deduktive Verfahren in der Statistik - **Induktive Verfahren**: Basieren auf Beobachtungen und schließen auf Populationen (z.B. Hypothesentests). - **Deduktive Verfahren**: Basieren auf logischen Schlussfolgerungen aus allgemeinen Prinzipien (z.B. mathematische Modelle). ### Philosophie der Statistik - **Karl Popper und Falsifikation**: Popper betonte die Bedeutung der Falsifikation von Hypothesen als Kern wissenschaftlicher Methode. - **Frequentistische vs. Bayesianische Ansätze**: Unterschiedliche Philosophien zur Interpretation von Wahrscheinlichkeiten und Hypothesen. ### Replikationskrise und wissenschaftliche Integrität - **Problematik**: Viele wissenschaftliche Studien sind nicht replizierbar, was die Glaubwürdigkeit der Forschung untergräbt. - **Lösungen**: - **Transparente Methodik**: Offenlegung aller Schritte und Entscheidungen in der Forschung. - **Pre-Registration**: Vorabregistrierung von Hypothesen und Methoden zur Vermeidung von p-Hacking. - **Replikationsstudien**: Durchführung von Studien zur Überprüfung früherer Ergebnisse. ### Hypothesentests in der Praxis - **Beispiel**: Ein Arzt vermutet, dass das Geburtsgewicht von Babys unter Risikofaktoren weniger als 3.500 Gramm beträgt. - **Nullhypothese (H₀)**: Das durchschnittliche Geburtsgewicht beträgt $\geq$ 3.500 Gramm. - **Alternativhypothese (H₁)**: Das durchschnittliche Geburtsgewicht beträgt $<$ 3.500 Gramm. - **Teststatistik**: Berechnung des T-Werts aus den Stichprobendaten. - **Entscheidungsregel**: Vergleich des T-Werts mit dem kritischen Wert der T-Verteilung. ### Power und Effektgröße - **Power**: Die Fähigkeit eines Tests, einen tatsächlichen Effekt zu erkennen ($1 - \beta$). - **Effektgröße ($\delta$)**: Maß für die Stärke des untersuchten Effekts. - **Beispiel**: Ein kleiner Effekt in klinischen Studien erfordert größere Stichproben, um erkannt zu werden. - **Berechnung der Power**: Berücksichtigung von Effektgröße, Signifikanzniveau und Stichprobengröße. ### Multiple Testing und Korrekturverfahren - **Bonferroni-Korrektur**: Strikte Anpassung des Signifikanzniveaus durch Division von $\alpha$ durch die Anzahl der durchgeführten Tests.