In der Statistik geht es oft darum, den Zusammenhang zwischen zwei metrischen Variablen (z.B. Körpergröße und Gewicht) zu untersuchen. Dafür gibt es verschiedene Maße, um diese Abhängigkeit zu quantifizieren. Die bekanntesten davon sind der Bravais-Pearson-Korrelationskoeffizient und der Spearman-Rangkorrelationskoeffizient. In diesem Blog-Post zeige ich dir, wie diese Maße funktionieren, wann du sie anwendest und wie du sie in R berechnen kannst.
Bravais-Pearson-Korrelationskoeffizient
Der Bravais-Pearson-Korrelationskoeffizient $r$ misst die Stärke und Richtung des linearen Zusammenhangs zwischen zwei metrischen Variablen. Er gibt an, wie gut die Datenpunkte durch eine Gerade beschrieben werden können.
Die Formel lautet:
$r = \frac{\sum (x_i – \bar{x})(y_i – \bar{y})}{\sqrt{\sum (x_i – \bar{x})^2 \sum (y_i – \bar{y})^2}}$
Interpretation:
- $r = 1: Perfekter positiver linearer Zusammenhang (wenn $X$ steigt, steigt auch $Y$).
- $r = -1$: Perfekter negativer linearer Zusammenhang (wenn $X$ steigt, sinkt $Y$).
- $r = 0$: Kein linearer Zusammenhang.
Je näher $r$ bei 1 oder -1 liegt, desto stärker ist der lineare Zusammenhang zwischen den Variablen.
Beispiel in R
Schauen wir uns ein Beispiel an: Du möchtest den Zusammenhang zwischen Körpergröße (in cm) und Gewicht (in kg) von 10 Personen untersuchen.
# Daten eingeben
groesse <- c(160, 170, 175, 180, 185, 165, 190, 175, 168, 182)
gewicht <- c(55, 70, 68, 85, 90, 60, 95, 75, 63, 80)
# Berechnung des Pearson-Korrelationskoeffizienten
cor(groesse, gewicht)
Mit diesem Code erhältst du den Wert des Pearson-Korrelationskoeffizienten, der dir zeigt, wie stark der lineare Zusammenhang zwischen Größe und Gewicht ist.
Spearman-Rangkorrelationskoeffizient
Der Spearman-Rangkorrelationskoeffizient $r_{SP}$ misst die Stärke und Richtung eines monotonen Zusammenhangs zwischen zwei Variablen, basierend auf den Rängen der Datenpunkte, anstatt auf ihren tatsächlichen Werten. Dieser Koeffizient ist robuster gegenüber Ausreißern und auch dann sinnvoll, wenn der Zusammenhang zwischen den Variablen nicht linear ist.
Die Formel lautet:
$r_{SP} = 1 – \frac{6 \sum d_i^2}{n(n^2 – 1)}$
wobei $d_i$ die Differenz der Ränge der beiden Variablen ist und $n$ die Anzahl der Beobachtungen.
Beispiel in R
Angenommen, du möchtest den Zusammenhang zwischen den Rängen der gleichen Körpergröße- und Gewichtsdaten untersuchen. Hier ist der R-Code:
# Berechnung des Spearman-Korrelationskoeffizienten
cor(groesse, gewicht, method = "spearman")
Dieser Code liefert dir den Spearman-Rangkorrelationskoeffizienten, der den monotonen Zusammenhang zwischen den beiden Variablen beschreibt.
Visualisierung des Zusammenhangs
Du kannst den Zusammenhang zwischen zwei Variablen auch visuell darstellen, um ein besseres Gefühl dafür zu bekommen. Ein Streudiagramm (Scatterplot) ist ein gängiges Werkzeug, um zu sehen, ob ein linearer Zusammenhang vorliegt.
# Streudiagramm zeichnen
plot(groesse, gewicht, main = "Zusammenhang zwischen Körpergröße und Gewicht",
xlab = "Körpergröße (cm)", ylab = "Gewicht (kg)", pch = 19)
Dieses Streudiagramm zeigt dir die Verteilung der Datenpunkte. Wenn die Punkte ungefähr einer Linie folgen, deutet das auf einen starken linearen Zusammenhang hin.
Fazit
Zusammenhangsmaße wie der Bravais-Pearson-Korrelationskoeffizient und der Spearman-Rangkorrelationskoeffizient helfen dir, den Grad der Abhängigkeit zwischen zwei metrischen Variablen zu quantifizieren. Pearson ist dabei besonders geeignet für lineare Zusammenhänge, während Spearman auch für monotone Beziehungen verwendet werden kann. Beide Maße kannst du mit wenigen Zeilen Code in R berechnen und zusätzlich visuell durch ein Streudiagramm unterstützen.
Experimentiere ruhig selbst mit deinen Daten, um zu sehen, wie diese Maße funktionieren und welche Einsichten du daraus gewinnen kannst!