Der Kontingenzkoeffizient ist ein Maß, um die Stärke des Zusammenhangs zwischen zwei nominalskalierten Variablen in einer Kreuztabelle zu quantifizieren. Er ergänzt Tests wie den Chi-Quadrat-Test, indem er die Stärke eines Zusammenhangs unabhängig von der Stichprobengröße ausdrückt.
Grundidee des Kontingenzkoeffizienten
Während der Chi-Quadrat-Test lediglich die Signifikanz eines Zusammenhangs prüft, geht der Kontingenzkoeffizient einen Schritt weiter: Er bewertet die Stärke des Zusammenhangs. Das Ziel ist, eine Aussage darüber zu treffen, wie stark die Abhängigkeit zwischen zwei nominalen Variablen tatsächlich ist.
Wichtige Eigenschaften:
- Wertebereich: Der Kontingenzkoeffizient liegt immer zwischen 0 (kein Zusammenhang) und einem oberen Grenzwert kleiner als 1, abhängig von der Tabellengröße.
- Er ist nicht symmetrisch: Der Wert wird durch die Anzahl der Kategorien beeinflusst, weshalb er vor allem bei Tabellen mit ähnlichen Dimensionen (z. B. $2 \times 2$) sinnvoll ist.
Berechnung des Kontingenzkoeffizienten
Die Berechnung basiert auf der Chi-Quadrat-Statistik ($\chi^2$) aus der Kreuztabelle: $C = \sqrt{\frac{\chi^2}{\chi^2 + N}}$
- $C$: Kontingenzkoeffizient.
- $\chi^2$: Chi-Quadrat-Wert (aus der vorherigen Berechnung).
- $N$: Gesamtanzahl der Beobachtungen in der Tabelle.
Beispiel: Berechnung des Kontingenzkoeffizienten
Problemstellung:
Wir verwenden das gleiche Beispiel wie beim Chi-Quadrat-Test: Eine Umfrage unter 100 Personen untersucht die Vorliebe für Kaffee oder Tee, aufgeteilt nach Geschlecht.
Kaffee | Tee | Gesamt | |
---|---|---|---|
Männlich | 30 | 20 | 50 |
Weiblich | 10 | 40 | 50 |
Gesamt | 40 | 60 | 100 |
- Chi-Quadrat-Wert ($\chi^2$) berechnen: Wie bereits im Beispiel zum Chi-Quadrat-Test gezeigt, ergibt sich: $\chi^2 = \sum \frac{(O_{ij} – E_{ij})^2}{E_{ij}}$ Angenommen, wir erhalten $\chi^2 = 16,67$.
- Kontingenzkoeffizienten berechnen: Setzen wir die Werte in die Formel ein: $C = \sqrt{\frac{\chi^2}{\chi^2 + N}} = \sqrt{\frac{16,67}{16,67 + 100}} = \sqrt{\frac{16,67}{116,67}} \approx 0,38$ Der Kontingenzkoeffizient beträgt also 0,38.
Interpretation des Kontingenzkoeffizienten
1. Stärke des Zusammenhangs
Der Wert des Kontingenzkoeffizienten zeigt an, wie stark der Zusammenhang zwischen den beiden Variablen ist:
- C = 0: Kein Zusammenhang.
- C > 0: Es besteht ein Zusammenhang, dessen Stärke mit steigenden Werten zunimmt.
- Obergrenze (< 1): Der Wert kann niemals 1 erreichen, was die Interpretation erschweren kann, besonders bei größeren Tabellen.
In unserem Beispiel von 0,38 kann man von einem moderaten Zusammenhang sprechen.
2. Abhängigkeit von der Tabellengröße
Ein wichtiger Kritikpunkt am Kontingenzkoeffizienten ist, dass er nicht den vollständigen Wertebereich von 0 bis 1 abdeckt. Stattdessen hängt seine Obergrenze von der Anzahl der Kategorien in der Tabelle ab:
- In einer $2 \times 2$-Tabelle ist die Obergrenze relativ hoch.
- Bei größeren Tabellen (z. B. $4 \times 5$) ist der maximale Wert deutlich kleiner.
Für exaktere Vergleiche zwischen Tabellen unterschiedlicher Dimensionen kann Cramérs V als Alternative herangezogen werden.
Vorteile und Grenzen
Vorteile:
- Einfach zu berechnen, wenn der Chi-Quadrat-Wert vorliegt.
- Geeignet für $2 \times 2$- oder ähnlich dimensionierte Kreuztabellen.
- Liefert ein intuitives Maß für die Stärke des Zusammenhangs.
Grenzen:
- Abhängig von der Tabellengröße, was Vergleiche erschwert.
- Kein absolutes Maß: Die Werte können nicht direkt mit anderen Korrelationsmaßen verglichen werden.
Fazit
Der Kontingenzkoeffizient ist eine nützliche Erweiterung des Chi-Quadrat-Tests, wenn es darum geht, die Stärke eines Zusammenhangs zwischen nominalskalierten Variablen zu bewerten. Allerdings sollte seine Abhängigkeit von der Tabellengröße immer berücksichtigt werden. Für eine präzisere Analyse oder den Vergleich verschiedener Tabellen kann es sinnvoll sein, ergänzende Maße wie Cramérs V zu verwenden.