...

Streumaße in der deskriptiven Statistik

Varianz und Standardabweichung

In der deskriptiven Statistik sind Varianz und Standardabweichung zwei der zentralen Streuungsmaße, die oft gemeinsam mit dem arithmetischen Mittel verwendet werden, um die Verteilung von Daten zu beschreiben. Sie messen, wie stark die einzelnen Beobachtungen um ihren Mittelwert streuen.

Die Varianz einer Stichprobe ist definiert als das arithmetische Mittel der quadrierten Abweichungen jeder Beobachtung vom Mittelwert:

$$
s^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i – \bar{x})^2
$$

Dabei ist $n$ die Anzahl der Beobachtungen, $x_i$ der Wert der $i$-ten Beobachtung und $\bar{x}$ das arithmetische Mittel. Die Quadrierung der Abweichungen sorgt dafür, dass alle Abweichungen positiv sind, da negative und positive Abweichungen sich ansonsten aufheben würden.

Die Standardabweichung ist die Quadratwurzel der Varianz und hat somit die gleiche Einheit wie die Beobachtungen selbst:

$$
s = \sqrt{s^2}
$$

Die Standardabweichung ist leichter zu interpretieren, da sie im Gegensatz zur Varianz nicht in quadrierten Einheiten angegeben wird. Sie ist besonders nützlich, um Intervalle wie $\bar{x} \pm s$ anzugeben, in denen etwa 68 % der Daten liegen, sofern die Verteilung annähernd normalverteilt ist.

Beispielberechnung von Hand

Nehmen wir an, wir haben die folgende Datenreihe mit $n = 5$ Beobachtungen:

$$
x = {2, 4, 4, 4, 5}
$$

  1. Berechnung des Mittelwerts:

$$
\bar{x} = \frac{2 + 4 + 4 + 4 + 5}{5} = 3.8
$$

  1. Berechnung der Abweichungen und deren Quadrate:

$$
(2 – 3.8)^2 = 3.24
$$
$$
(4 – 3.8)^2 = 0.04
$$
$$
(4 – 3.8)^2 = 0.04
$$
$$
(4 – 3.8)^2 = 0.04
$$
$$
(5 – 3.8)^2 = 1.44
$$

  1. Berechnung der Varianz:

$$
s^2 = \frac{3.24 + 0.04 + 0.04 + 0.04 + 1.44}{5} = 0.96
$$

  1. Berechnung der Standardabweichung:

$$
s = \sqrt{0.96} = 0.98
$$

Hier gleich noch ein Beispiel im Video:

Berechnung in Excel/Sheets

Hier findest du die Berechnung in Excel/Sheets:

Berechnung in R

In R kannst du Varianz und Standardabweichung mit den folgenden Funktionen berechnen:

x <- c(2, 4, 4, 4, 5)
var(x)  # Varianz
sd(x)   # Standardabweichung

In diesem Fall würden beide Berechnungen folgende Ergebnisse liefern:

var(x)
# [1] 0.96

sd(x)
# [1] 0.9797959

Berechnung in SPSS Statistics

Um die Varianz und Standardabweichung in SPSS Statistics zu berechnen, folge diesen Schritten:

  1. Öffne SPSS und importiere deine Daten.
  2. Wähle unter „Analyze“ die Option „Descriptive Statistics“ und dann „Descriptives“.
  3. Wähle die Variablen aus, für die du Varianz und Standardabweichung berechnen möchtest.
  4. Klicke auf „Options“ und stelle sicher, dass „Standardabweichung“ markiert ist.
  5. Klicke auf „OK“, um die Ergebnisse anzuzeigen.

Der Variationskoeffizient

Ein weiteres nützliches Streuungsmaß ist der Variationskoeffizient. Er ist definiert als das Verhältnis der Standardabweichung zum Mittelwert:

$$
\text{CV} = \frac{s}{\bar{x}}
$$

Der Variationskoeffizient ist dimensionslos und ermöglicht den Vergleich der Streuung von Datensätzen mit unterschiedlichen Einheiten oder Mittelwerten.

Quantile

uantile sind Streuungsmaße, die eine Verteilung in gleiche Teile unterteilen. Sie beschreiben bestimmte Punkte in der Verteilung der Daten, an denen ein bestimmter Anteil der Beobachtungen kleiner oder gleich diesem Wert ist. Ein bekanntes Beispiel ist das Median (das 50%-Quantil), das die Daten in zwei Hälften teilt. Weitere wichtige Quantile sind das erste Quartil (Q1), das die unteren 25 % der Daten beschreibt, und das dritte Quartil (Q3), das die oberen 25 % beschreibt.

Box-Plot und Interquartilsabstand

Ein weiteres Streuungsmaß ist der Interquartilsabstand (IQR), der die Spannweite der mittleren 50 % der Daten beschreibt. Er wird durch die Differenz zwischen dem oberen (Q3) und unteren Quartil (Q1) berechnet:

$$
IQR = Q3 – Q1
$$

Der Interquartilsabstand ist resistent gegenüber Ausreißern und gibt einen robusten Eindruck der Streuung der Daten. Er wird oft zusammen mit dem Box-Plot verwendet, um die Verteilung visuell darzustellen. Der Box/Plot verwendet fünf Angaben, die die Verteilung einer Datenmenge sehr gut zusammenfassen:

  1. $Q1$ (als Anfang der xBox)
  2. $Q3$ (als Ende der Box)
  3. $IQR = d_Q$ (als Länge der Box)
  4. $Q2 = Median$ (als Linie in der Box)
  5. $x_min$ und $x_max$ als Ende der Whiskers

Achtung: „Den Boxplot“ gibt es nicht – die Parameter, durch die ein Box-Plot definiert werden, können variieren! Zum Beispiel müssen die Enden nicht immer durch Minimum und Maximum angegeben werden!

Beispiel für den Box-Plot in R

Um einen Box-Plot zu erstellen, der den Interquartilsabstand zeigt, kannst du in R die Funktion boxplot() verwenden:

boxplot(x, main="Boxplot der Datenreihe", ylab="Werte")

Dies generiert einen einfachen Box-Plot, der die mittleren 50 % der Daten darstellt.

Alles klar?

Ich hoffe, der Beitrag war für dich soweit verständlich. Wenn du weitere Fragen hast, nutze bitte hier die Möglichkeit, eine Frage an mich zu stellen!

Fazit

Streumaße wie Varianz, Standardabweichung und Interquartilsabstand bieten uns wichtige Informationen über die Verteilung und Streuung von Daten. In der deskriptiven Statistik sind sie unverzichtbar, um das Verhalten und die Eigenschaften einer Stichprobe zu verstehen.