19. p-Hacking

p-Hacking: Eine Einführung

Einführung

p-Hacking bezeichnet die Praxis, in der statistische Tests so manipuliert oder angepasst werden, dass sie signifikante Ergebnisse liefern, selbst wenn diese nicht den tatsächlichen Daten entsprechen. Diese Praxis ist in der Forschung ein ernstes Problem, da sie die Integrität wissenschaftlicher Ergebnisse untergräbt. p-Hacking ist relevant, weil es zu falsch-positiven Ergebnissen führen kann, die wiederum die wissenschaftliche Literatur verzerren und falsche Schlussfolgerungen in der Forschung fördern.

Anwendung

p-Hacking kann in vielen Bereichen der Forschung auftreten, insbesondere in den Sozialwissenschaften, der Psychologie, der Medizin und der Biowissenschaften, wo statistische Tests häufig verwendet werden, um Hypothesen zu überprüfen. Ein typisches Beispiel ist die medizinische Forschung, in der Forscher möglicherweise verschiedene Variablen oder Subgruppen testen, um signifikante Ergebnisse zu erzielen, die eine Veröffentlichung ermöglichen.

Aufbau / Bestandteile

Die zentralen Elemente von p-Hacking umfassen:

  • Datenmanipulation: Das gezielte Entfernen oder Hinzufügen von Datenpunkten, um die Signifikanz zu beeinflussen.
  • Mehrfachtests: Das Durchführen zahlreicher statistischer Tests, bis ein signifikantes Ergebnis gefunden wird.
  • Flexible Datenanalysen: Das Anpassen von Analysemethoden oder -modellen, um signifikante Ergebnisse zu erzielen.
  • Selektive Berichterstattung: Nur signifikante Ergebnisse werden veröffentlicht, während nicht signifikante Ergebnisse ignoriert werden.

Interpretation

p-Hacking führt häufig zu einem p-Wert unter 0,05, was traditionell als Schwellenwert für statistische Signifikanz angesehen wird. Ein solcher p-Wert deutet darauf hin, dass die beobachteten Ergebnisse nicht durch Zufall erklärt werden können. Bei p-Hacking ist dieser Wert jedoch irreführend, da die Ergebnisse durch manipulative Praktiken zustande gekommen sind und nicht durch tatsächliche Effekte.

Praxisbeispiel

Angenommen, ein Forscher untersucht den Einfluss einer neuen Diät auf das Gewicht. Er testet mehrere Subgruppen (z.B. nach Alter, Geschlecht) und verschiedene Zeitpunkte, bis er eine signifikante Gewichtsreduktion bei einer kleinen Gruppe findet. Er berichtet nur über diese signifikante Subgruppe.

# Beispiel in R: Simulierung von p-Hacking
set.seed(123)
data <- rnorm(100)  # Generierung von Zufallsdaten
p_values <- sapply(1:20, function(i) {
  t.test(data, rnorm(100))$p.value  # 20 unabhängige t-Tests
})
significant <- p_values < 0.05
# Ausgabe der signifikanten p-Werte
significant_p_values <- p_values[significant]
significant_p_values

Erweiterungen

Verwandte Themen sind Publication Bias, bei dem nur signifikante Ergebnisse veröffentlicht werden, und Data Dredging, das exzessive Durchsuchen von Daten nach Mustern. Moderne Ansätze zur Vermeidung von p-Hacking umfassen präregistrierte Studien, bei denen die Analysemethoden vor der Datenerhebung festgelegt werden, und Bayesianische Statistik, die alternative Methoden zur Signifikanzbewertung bietet.

Fazit

p-Hacking ist eine problematische Praxis, die die Glaubwürdigkeit der wissenschaftlichen Forschung gefährdet. Um dies zu vermeiden, sollten Forscher transparente und reproduzierbare Methoden anwenden und sich bewusst sein, dass Signifikanz nicht gleichbedeutend mit Wahrheit ist. Eine stärkere Betonung auf präregistrierte Studien und alternative statistische Ansätze kann helfen, die Integrität der Forschung zu verbessern.

Weiterführende Literatur

  • Simmons, J. P., Nelson, L. D., & Simonsohn, U. (2011). False-positive psychology: Undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychological Science.
  • Ioannidis, J. P. A. (2005). Why most published research findings are false. PLoS Medicine.