Bland-Altman-Diagramm: Eine tiefgehende Erklärung

Einführung

Das Bland-Altman-Diagramm (auch Difference-Plot oder Tukey Mean-Difference-Plot) ist eine statistische Visualisierungsmethode, um die Übereinstimmung (Agreement) zwischen zwei Messmethoden zu bewerten. Es wurde 1986 von J. Martin Bland und Douglas G. Altman entwickelt und ist heute ein Goldstandard in der medizinischen Forschung, Technik und Biostatistik. Im Gegensatz zu Korrelationstests (z. B. Pearson’s r) zeigt es nicht nur, ob zwei Methoden zusammenhängen, sondern wie gut sie übereinstimmen.


Wann wird es verwendet?

Das Diagramm beantwortet folgende Fragen:

  1. Besteht eine systematische Abweichung (Bias) zwischen zwei Messmethoden?
  2. Wie groß ist die Streuung der Unterschiede?
  3. Gibt es proportionale Abweichungen (z. B. größere Unterschiede bei höheren Werten)?

Beispielanwendungen

  • Vergleich eines neuen Blutzuckermessgeräts mit einem Laborstandard.
  • Validierung einer schnellen COVID-19-Diagnostik gegen PCR-Tests.
  • Bewertung der Reproduzierbarkeit von Messungen (Intra-/Inter-Rater-Reliabilität).

Aufbau des Diagramms

  1. X-Achse: Der Mittelwert der beiden Messmethoden pro Datenpunkt:

  2. Y-Achse: Die Differenz zwischen den beiden Messmethoden:

  3. Horizontale Linien:

    • Mittlere Differenz (Bias):

\bar{d} = \frac{1}{n} \sum_{i=1}^n d_i

- **Grenzen der Übereinstimmung (Limits of Agreement, LoA)**: $$ \text{LoA} = \bar{d} \pm 1.96 \cdot \text{SD}(d)

Interpretation

SzenarioVisualisierungBedeutung
Kein BiasPunkte gleichmäßig um verteiltBeide Methoden messen im Mittel gleich.
Systematischer BiasPunktecluster oberhalb/unterhalb von 0Eine Methode misst systematisch höher/niedriger.
Proportionaler BiasUnterschiede nehmen mit dem Mittelwert zu/abDie Abweichung hängt von der Messgröße ab (z. B. größere Fehler bei hohen Werten).
Breite LoAGroße Streuung um Schlechte Übereinstimmung, hohe Variabilität.

Ausschlusskriterien

  • Mehr als 5 % der Punkte außerhalb der LoA → klinisch nicht akzeptabel.
  • Klare Muster (z. B. Trichtereffekt) → Verletzung der Annahmen.

Statistische Annahmen

  1. Normalverteilung der Differenzen → Prüfung z. B. via Shapiro-Wilk-Test oder Q-Q-Plot.
  2. Keine Abhängigkeit der Differenzen vom Mittelwert → Test auf proportionale Abweichung (Regression der Differenzen auf den Mittelwert).

Fallstricke

  • Korrelation ≠ Übereinstimmung: Ein hoher Pearson’s r bedeutet nicht, dass die Methoden austauschbar sind!
  • Falsche Interpretation der LoA: Die LoA beschreiben die erwartete Differenz bei 95 % der Daten, nicht die klinische Relevanz.

Praxisbeispiel in R

library(ggplot2)
library(BlandAltmanLeh)
 
# Beispielsdaten
set.seed(123)
methode_A <- rnorm(100, mean = 50, sd = 10)
methode_B <- methode_A + rnorm(100, mean = 2, sd = 3)  # Systematischer Bias von 2
 
# Bland-Altman-Plot
bland.altman.plot(methode_A, methode_B,
                  main = "Vergleich Methode A vs. B",
                  xlab = "Mittelwert (A & B)",
                  ylab = "Differenz (A - B)")

Output-Interpretation:

  • Mittlere Differenz (Bias) = 2.1 → Methode B liefert systematisch höhere Werte.
  • LoA = -4.5 bis +8.7 → Bei 95 % der Daten liegt die Differenz in diesem Bereich.

Erweiterungen

  • Nicht-normale Daten: Log-Transformation oder nicht-parametrische LoA (Perzentil-Methode).
  • Wiederholte Messungen: Hierarchical Bland-Altman für gepaarte Daten.
  • Mehrere Methoden: Passing-Bablok-Regression oder Mountain-Plots.

Zusammenfassung

  • Stärken: Einfache Visualisierung von Bias und Variabilität.
  • Schwächen: Keine Aussage zur klinischen Relevanz der LoA.
  • Empfehlung: Immer in Kombination mit klinischer Experteneinschätzung verwenden.

🔍 Originalpublikation: Bland & Altman (1986). “Statistical methods for assessing agreement between two methods of clinical measurement”. Lancet.