Bivariate Korrelation: Einführung in den Pearson-Korrelationskoeffizienten

Der Pearson-Korrelationskoeffizient, benannt nach Karl Pearson, ist ein statistisches Maß, das die lineare Beziehung zwischen zwei metrischen Variablen quantifiziert. Hier sehen wir uns näher an, wie du ihn berechnest und interpretierst.

Definition und Interpretation des Pearson-Koeffizienten

Die Formel für den Pearson-Korrelationskoeffizienten lautet:

$$r = \frac{\sum_{i=1}^n (x_i – \bar{x})(y_i – \bar{y})}{\sqrt{\sum_{i=1}^n (x_i – \bar{x})^2 \sum_{i=1}^n (y_i – \bar{y})^2}}$$

Dabei bedeuten:

  • $x_i$, $y_i$: Die einzelnen Werte der beiden Variablen $X$ und $Y$.
  • $\overline{x}$, $\overline{y}$: Die Mittelwerte von $X$ und $Y$.
  • $n$: Die Anzahl der Paare.

Interpretation des Korrelationskoeffizienten

Der Wertebereich von $r$ liegt zwischen -1 und +1:

  • +1: Perfekte positive Korrelation (wenn eine Variable steigt, steigt die andere proportional).
  • 0: Keine lineare Korrelation (kein linearer Zusammenhang zwischen den Variablen).
  • -1: Perfekte negative Korrelation (wenn eine Variable steigt, sinkt die andere proportional).

Die Stärke des Zusammenhangs wird oft wie folgt interpretiert:

Korrelationskoeffizient ($r$)Stärke des Zusammenhangs
0.0 bis 0.2Sehr schwach
0.2 bis 0.4Schwach
0.4 bis 0.6Mittel
0.6 bis 0.8Stark
0.8 bis 1.0Sehr stark

Manchmal ist es in der Statistik notwendig, Variablen vor des eigentlichen Hypothesentests zu transformieren. Das ist auch nicht weiter schlimm – das Ergebnis der Korrelation wird sich dadurch (bis auch evt. das Vorzeichen) nicht ändern, solange es sich um eine lineare Transformation handelt. Das wird auch als die Maßstabsunabhängigkeit von $r$ bezeichnet.

Visualisierung von Zusammenhängen

Um den Zusammenhang zwischen zwei Variablen besser zu verstehen, eignen sich Streudiagramme. Ein Beispiel für ein stark positives Streudiagramm zeigt, wie die Punkte nahe an einer aufsteigenden Linie liegen.

Voraussetzungen für die Anwendung

Um den Pearson-Korrelationskoeffizienten sinnvoll anwenden zu können, sollten folgende Bedingungen erfüllt sein:

Metrische Skalenniveaus: Beide Variablen müssen metrisch skaliert sein. Das weißt du entweder basierend darauf, wie die Daten definiert sind oder weil sie empirisch „danach aussehen“ (z.B. Kommastellen, es gibt viele unterschiedliche Ausprägungen, etc.). Ist eine der Variablen nur ordinal skaliert, solltest du auf eine Rangkorrelation wechseln.

Lineare Beziehung: Der Zusammenhang sollte annähernd linear sein. Das kannst du überprüfen, indem du dir einen Scatterplot ansiehst. Kannst du dir hier eine Gerade vorstellen, die die Punktwolke halbwegs gut zusammenfasst? Was wir jedenfalls nicht sehen wollen ist ein (umgedrehtes) U: das wäre eine nicht-lineare Beziehung!

Normalverteilung: Beide Variablen sollten annähernd normalverteilt sein. Wenn das nicht der Fall ist, bietet sich eventuell Spearmans‘ Rangkorrelation als Alternative an. Auch ier bietet sich eine visuelle Analyse der Histogramme an. Wenn du es genau wissen willst, gibt es natürlich auch statistische Tests darüber, z.B. den Shapiro-Wilk Test.

Keine Ausreißer: Extremwerte können den Korrelationswert stark beeinflussen.

Kritische Werte der Korrelation ($\alpha = 0.05$)

Um die statistische Signifikanz des Hypothesentests zu schätzen, können wir auf eine Tabelle mit kritischen Werten als Vergleich zurückgreifen. Wichtig ist dabei insbesonder die Fallzahl $n$, die bestimmt, in welcher Zeile wir in der Tabelle nachsehen müssen. Sehen wir dann ein $r$, dass dem kritischen Wert (in der entsprechenden Zeile) mindestens entspricht (Achtung, es handelt sich um absolute Zahlen!) können wir von statististischer Signifikant ($p < 0.05$) ausgehen.

Freiheitsgrade: n – 2(absolute) Kritische Werte
10.997
20.950
30.878
40.811
50.754
60.707
70.666
80.632
90.602
100.576
110.555
120.532
130.514
140.497
150.482
160.468
170.456
180.444
190.433
200.423
210.413
220.404
230.396
240.388
250.381
260.374
270.367
280.361
290.355
300.349
400.304
500.273
600.250
700.232
800.217
900.205
1000.195

Beispiel: Untersuchung eines Zusammenhangs

Stell dir vor, du möchtest den Zusammenhang zwischen der Lernzeit (in Stunden) und der Punktzahl in einem Test untersuchen. Für sechs Studierende liegen folgende Werte vor:

StudierendeLernzeit (Stunden) $X$Testpunktzahl $Y$
A250
B360
C580
D470
E690
F140

Hier findest du die Berechnung in Google Sheets:

Einschränkungen und Vorsicht bei der Interpretation

  1. Korrelation ist keine Kausalität: Auch wenn zwei Variablen korrelieren, bedeutet dies nicht, dass die eine die andere verursacht.
  2. Nur lineare Zusammenhänge: Der Pearson-Koeffizient misst ausschließlich lineare Zusammenhänge. Nicht-lineare Zusammenhänge werden nicht erfasst.
  3. Einfluss von Ausreißen: Einzelne extreme Werte können den Wert von \$r\$ stark verzerren.

Anwendungsfelder des Pearson-Koeffizienten

Der Pearson-Korrelationskoeffizient findet Anwendung in vielen Bereichen, darunter (beispielshaft):

  1. Psychologie: Zusammenhang zwischen Intelligenzquotient und schulischen Leistungen.
  2. Medizin: Beziehung zwischen Dosis eines Medikaments und der Wirkung.
  3. Wirtschaft: Zusammenhang zwischen Marketing-Ausgaben und Umsatz.

Fazit

Der Pearson-Korrelationskoeffizient ist ein wertvolles Werkzeug zur Analyse linearer Zusammenhänge zwischen zwei Variablen. Seine Anwendung erfordert jedoch Sorgfalt, insbesondere in Bezug auf die Voraussetzungen und die Interpretation der Ergebnisse. Mit geeigneten Visualisierungen und ergänzenden Maßen kann er jedoch tiefere Einblicke in die Daten liefern.