Bland-Altman-Diagramm: Eine tiefgehende Erklärung
Einführung
Das Bland-Altman-Diagramm (auch Difference-Plot oder Tukey Mean-Difference-Plot) ist eine statistische Visualisierungsmethode, um die Übereinstimmung (Agreement) zwischen zwei Messmethoden zu bewerten. Es wurde 1986 von J. Martin Bland und Douglas G. Altman entwickelt und ist heute ein Goldstandard in der medizinischen Forschung, Technik und Biostatistik. Im Gegensatz zu Korrelationstests (z. B. Pearson’s r) zeigt es nicht nur, ob zwei Methoden zusammenhängen, sondern wie gut sie übereinstimmen.
Wann wird es verwendet?
Das Diagramm beantwortet folgende Fragen:
- Besteht eine systematische Abweichung (Bias) zwischen zwei Messmethoden?
- Wie groß ist die Streuung der Unterschiede?
- Gibt es proportionale Abweichungen (z. B. größere Unterschiede bei höheren Werten)?
Beispielanwendungen
- Vergleich eines neuen Blutzuckermessgeräts mit einem Laborstandard.
- Validierung einer schnellen COVID-19-Diagnostik gegen PCR-Tests.
- Bewertung der Reproduzierbarkeit von Messungen (Intra-/Inter-Rater-Reliabilität).
Aufbau des Diagramms
-
X-Achse: Der Mittelwert der beiden Messmethoden pro Datenpunkt:
-
Y-Achse: Die Differenz zwischen den beiden Messmethoden:
-
Horizontale Linien:
- Mittlere Differenz (Bias):
\bar{d} = \frac{1}{n} \sum_{i=1}^n d_i
- **Grenzen der Übereinstimmung (Limits of Agreement, LoA)**: $$ \text{LoA} = \bar{d} \pm 1.96 \cdot \text{SD}(d)Interpretation
Szenario | Visualisierung | Bedeutung |
---|---|---|
Kein Bias | Punkte gleichmäßig um verteilt | Beide Methoden messen im Mittel gleich. |
Systematischer Bias | Punktecluster oberhalb/unterhalb von 0 | Eine Methode misst systematisch höher/niedriger. |
Proportionaler Bias | Unterschiede nehmen mit dem Mittelwert zu/ab | Die Abweichung hängt von der Messgröße ab (z. B. größere Fehler bei hohen Werten). |
Breite LoA | Große Streuung um | Schlechte Übereinstimmung, hohe Variabilität. |
Ausschlusskriterien
- Mehr als 5 % der Punkte außerhalb der LoA → klinisch nicht akzeptabel.
- Klare Muster (z. B. Trichtereffekt) → Verletzung der Annahmen.
Statistische Annahmen
- Normalverteilung der Differenzen → Prüfung z. B. via Shapiro-Wilk-Test oder Q-Q-Plot.
- Keine Abhängigkeit der Differenzen vom Mittelwert → Test auf proportionale Abweichung (Regression der Differenzen auf den Mittelwert).
Fallstricke
- Korrelation ≠ Übereinstimmung: Ein hoher Pearson’s r bedeutet nicht, dass die Methoden austauschbar sind!
- Falsche Interpretation der LoA: Die LoA beschreiben die erwartete Differenz bei 95 % der Daten, nicht die klinische Relevanz.
Praxisbeispiel in R
Output-Interpretation:
- Mittlere Differenz (Bias) = 2.1 → Methode B liefert systematisch höhere Werte.
- LoA = -4.5 bis +8.7 → Bei 95 % der Daten liegt die Differenz in diesem Bereich.
Erweiterungen
- Nicht-normale Daten: Log-Transformation oder nicht-parametrische LoA (Perzentil-Methode).
- Wiederholte Messungen: Hierarchical Bland-Altman für gepaarte Daten.
- Mehrere Methoden: Passing-Bablok-Regression oder Mountain-Plots.
Zusammenfassung
- Stärken: Einfache Visualisierung von Bias und Variabilität.
- Schwächen: Keine Aussage zur klinischen Relevanz der LoA.
- Empfehlung: Immer in Kombination mit klinischer Experteneinschätzung verwenden.
🔍 Originalpublikation: Bland & Altman (1986). “Statistical methods for assessing agreement between two methods of clinical measurement”. Lancet.