Bland-Altman-Diagramm: Eine tiefgehende Erklärung

Einführung

Das Bland-Altman-Diagramm (auch Difference-Plot oder Tukey Mean-Difference-Plot) ist eine statistische Visualisierungsmethode, um die Übereinstimmung (Agreement) zwischen zwei Messmethoden zu bewerten. Es wurde 1986 von J. Martin Bland und Douglas G. Altman entwickelt und ist heute ein Goldstandard in der medizinischen Forschung, Technik und Biostatistik. Im Gegensatz zu Korrelationstests (z. B. Pearson’s r) zeigt es nicht nur, ob zwei Methoden zusammenhängen, sondern wie gut sie übereinstimmen.

Wann wird es verwendet?

Das Diagramm beantwortet folgende Fragen:

Besteht eine systematische Abweichung (Bias) zwischen zwei Messmethoden?
Wie groß ist die Streuung der Unterschiede?
Gibt es proportionale Abweichungen (z. B. größere Unterschiede bei höheren Werten)?

Beispielanwendungen

Vergleich eines neuen Blutzuckermessgeräts mit einem Laborstandard.
Validierung einer schnellen COVID-19-Diagnostik gegen PCR-Tests.
Bewertung der Reproduzierbarkeit von Messungen (Intra-/Inter-Rater-Reliabilität).

Aufbau des Diagramms

X-Achse: Der Mittelwert der beiden Messmethoden pro Datenpunkt:
$Mittelwert = \frac{Messung _{A} + Messung _{B}}{2}$
Y-Achse: Die Differenz zwischen den beiden Messmethoden:
$Differenz = Messung_{A} - Messung_{B}$
Horizontale Linien:
- Mittlere Differenz (Bias):

\bar{d} = \frac{1}{n} \sum_{i=1}^n d_i

- **Grenzen der Übereinstimmung (Limits of Agreement, LoA)**: $$ \text{LoA} = \bar{d} \pm 1.96 \cdot \text{SD}(d)

Interpretation

Szenario	Visualisierung	Bedeutung
Kein Bias	Punkte gleichmäßig um $\overset{ˉ}{d} = 0$ verteilt	Beide Methoden messen im Mittel gleich.
Systematischer Bias	Punktecluster oberhalb/unterhalb von 0	Eine Methode misst systematisch höher/niedriger.
Proportionaler Bias	Unterschiede nehmen mit dem Mittelwert zu/ab	Die Abweichung hängt von der Messgröße ab (z. B. größere Fehler bei hohen Werten).
Breite LoA	Große Streuung um $\overset{ˉ}{d}$	Schlechte Übereinstimmung, hohe Variabilität.

Ausschlusskriterien

Mehr als 5 % der Punkte außerhalb der LoA → klinisch nicht akzeptabel.
Klare Muster (z. B. Trichtereffekt) → Verletzung der Annahmen.

Statistische Annahmen

Normalverteilung der Differenzen → Prüfung z. B. via Shapiro-Wilk-Test oder Q-Q-Plot.
Keine Abhängigkeit der Differenzen vom Mittelwert → Test auf proportionale Abweichung (Regression der Differenzen auf den Mittelwert).

Fallstricke

Korrelation ≠ Übereinstimmung: Ein hoher Pearson’s r bedeutet nicht, dass die Methoden austauschbar sind!
Falsche Interpretation der LoA: Die LoA beschreiben die erwartete Differenz bei 95 % der Daten, nicht die klinische Relevanz.

Praxisbeispiel in R

library(ggplot2)
library(BlandAltmanLeh)
 
# Beispielsdaten
set.seed(123)
methode_A <- rnorm(100, mean = 50, sd = 10)
methode_B <- methode_A + rnorm(100, mean = 2, sd = 3)  # Systematischer Bias von 2
 
# Bland-Altman-Plot
bland.altman.plot(methode_A, methode_B,
                  main = "Vergleich Methode A vs. B",
                  xlab = "Mittelwert (A & B)",
                  ylab = "Differenz (A - B)")

Output-Interpretation:

Mittlere Differenz (Bias) = 2.1 → Methode B liefert systematisch höhere Werte.
LoA = -4.5 bis +8.7 → Bei 95 % der Daten liegt die Differenz in diesem Bereich.

Erweiterungen

Nicht-normale Daten: Log-Transformation oder nicht-parametrische LoA (Perzentil-Methode).
Wiederholte Messungen: Hierarchical Bland-Altman für gepaarte Daten.
Mehrere Methoden: Passing-Bablok-Regression oder Mountain-Plots.

Zusammenfassung

Stärken: Einfache Visualisierung von Bias und Variabilität.
Schwächen: Keine Aussage zur klinischen Relevanz der LoA.
Empfehlung: Immer in Kombination mit klinischer Experteneinschätzung verwenden.

🔍 Originalpublikation: Bland & Altman (1986). “Statistical methods for assessing agreement between two methods of clinical measurement”. Lancet.

🎓 MyUniNotes

Explorer

Bland-Altman-Diagramm