3. Kontingenztafel und erwartete Häufigkeiten

Kontingenztafel und erwartete Häufigkeiten: Eine Einführung

Einführung

Kontingenztafeln sind ein zentrales Werkzeug in der Statistik zur Untersuchung von Zusammenhängen zwischen zwei oder mehr kategorialen Variablen. Sie bieten eine tabellarische Darstellung der Häufigkeiten, mit denen Kombinationen von Kategorien auftreten. Die Relevanz dieses Instruments liegt in seiner Fähigkeit, Hypothesen über Unabhängigkeiten oder Zusammenhänge zwischen Variablen zu testen, was in vielen wissenschaftlichen und praktischen Bereichen von Bedeutung ist.

Anwendung

Kontingenztafeln finden in zahlreichen Bereichen Anwendung, darunter:

  • Marktforschung: Analyse von Kundenpräferenzen und Kaufverhalten.
  • Medizinische Forschung: Untersuchung des Zusammenhangs zwischen Risikofaktoren und Krankheitsausbrüchen.
  • Sozialwissenschaften: Erforschung von Beziehungen zwischen sozialen Phänomenen wie Bildung und Einkommen.
  • Qualitätskontrolle: Überprüfung von Produktionsprozessen auf Korrelationen zwischen Fehlerarten.

Aufbau / Bestandteile

Eine Kontingenztafel besteht aus Zeilen und Spalten, die jeweils eine Kategorie einer Variable repräsentieren. Die Zellen enthalten die beobachteten Häufigkeiten. Eine typische 2x2-Kontingenztafel sieht folgendermaßen aus:

Kategorie B1Kategorie B2Summe
Kategorie A1
Kategorie A2
Summe

Die erwarteten Häufigkeiten () für jede Zelle werden unter der Annahme der Unabhängigkeit der Variablen berechnet:

Interpretation

Die erwarteten Häufigkeiten sind ein Schlüsselkonzept zur Durchführung des Chi-Quadrat-Unabhängigkeitstests. Ein signifikanter Unterschied zwischen den beobachteten und erwarteten Häufigkeiten deutet auf eine mögliche Abhängigkeit zwischen den Variablen hin. Der Chi-Quadrat-Wert wird folgendermaßen berechnet:

Ein hoher Chi-Quadrat-Wert im Vergleich zu einem kritischen Wert aus der Chi-Quadrat-Verteilung (abhängig vom Freiheitsgrad) weist auf eine statistisch signifikante Abweichung hin.

Praxisbeispiel

Angenommen, wir möchten den Zusammenhang zwischen Rauchen (Ja/Nein) und Auftreten einer Krankheit (Ja/Nein) untersuchen. Die beobachteten Daten sind wie folgt:

Krankheit JaKrankheit NeinSumme
Raucher3070100
Nicht-Raucher2080100
Summe50150200

Die erwarteten Häufigkeiten werden berechnet als:

Die Berechnung des Chi-Quadrat-Werts erfolgt dann durch Einsetzen dieser Werte in die Formel.

# Beispiel in R
observed <- matrix(c(30, 70, 20, 80), nrow = 2, byrow = TRUE)
expected <- matrix(c(25, 75, 25, 75), nrow = 2, byrow = TRUE)
chi_square <- sum((observed - expected)^2 / expected)
chi_square

Erweiterungen

Neben der klassischen Chi-Quadrat-Analyse gibt es weitere Methoden zur Untersuchung von Zusammenhängen in Kontingenztafeln, wie der Fisher’s Exact Test für kleine Stichproben oder log-lineare Modelle für komplexere Tafeln. Moderne Ansätze nutzen maschinelles Lernen, um Muster in großen, multidimensionalen Datensätzen zu erkennen.

Fazit

Kontingenztafeln sind ein essenzielles Werkzeug zur Analyse kategorialer Daten, das in vielen Disziplinen Anwendung findet. Sie ermöglichen es, Hypothesen über Zusammenhänge zwischen Variablen zu testen und bieten eine Grundlage für weiterführende statistische Analysen. Bei der Anwendung ist es wichtig, die Voraussetzungen und Grenzen der verwendeten Tests zu berücksichtigen, um valide Schlussfolgerungen zu ziehen. Weiterführende Literatur und Studien bieten tiefere Einblicke in spezialisierte Anwendungen und Methoden.