In der Statistik begegnen wir oft Daten mit unterschiedlichen Mittelwerten und Standardabweichungen. Wenn wir diese Daten vergleichen oder statistische Tests durchführen möchten, kann dies zu Problemen führen. Hier kommt die Standardisierung ins Spiel, eine Technik, die es uns ermöglicht, verschiedene Datensätze auf eine vergleichbare Basis zu bringen.
Was ist Standardisierung?
Standardisierung bedeutet, dass wir eine Variable so transformieren, dass sie einer Standardnormalverteilung folgt. Die Standardnormalverteilung hat einen Mittelwert von 0 und eine Standardabweichung von 1. Dies macht die Berechnung von Wahrscheinlichkeiten und Vergleichen zwischen verschiedenen Datensätzen deutlich einfacher.
Die Formel für die Standardisierung lautet:
$Z = \frac{X – \mu}{\sigma}$
Hierbei ist:
- $X$: die zu standardisierende Variable
- $\mu$: der Mittelwert der Verteilung von $X$
- $\sigma$: die Standardabweichung der Verteilung von $X$
- $Z$: die standardisierte Variable, die der Standardnormalverteilung folgt
Beispiel: Standardisierung in R
Angenommen, wir haben eine normalverteilte Variable $X$, bei der der Mittelwert $170$ und die Standardabweichung $10$ beträgt. Wir möchten diese Werte standardisieren.
In R könnten wir dies so berechnen:
# Beispiel: Standardisierung in R
set.seed(123) # für Reproduzierbarkeit
X <- rnorm(1000, mean = 170, sd = 10) # Originaldaten
# Berechnung der standardisierten Werte
mu <- mean(X)
sigma <- sd(X)
Z <- (X - mu) / sigma # Standardisierte Werte
# Ausgabe der ersten paar standardisierten Werte
head(Z)
Dieses Skript generiert eine normalverteilte Variable $X$, standardisiert sie und gibt die ersten paar Werte der standardisierten Variable $Z$ aus.
Visualisierung der Standardisierung
Um zu verstehen, wie sich die Originalverteilung und die standardisierte Verteilung unterscheiden, können wir beide in einem Diagramm plotten.
# Pakete laden
library(ggplot2)
# Originalverteilung plotten
ggplot(data.frame(X), aes(x = X)) +
geom_histogram(aes(y = ..density..), bins = 30, color = "black", fill = "lightblue") +
geom_density(color = "blue") +
ggtitle("Originale Normalverteilung (Mittelwert = 170, SD = 10)") +
theme_minimal()
# Standardisierte Verteilung plotten
ggplot(data.frame(Z), aes(x = Z)) +
geom_histogram(aes(y = ..density..), bins = 30, color = "black", fill = "lightgreen") +
geom_density(color = "green") +
ggtitle("Standardisierte Normalverteilung (Mittelwert = 0, SD = 1)") +
theme_minimal()
Dieses R-Skript erstellt zwei Plots: einen für die Originalverteilung und einen für die standardisierte Verteilung. So kannst du gut den Unterschied sehen – nach der Standardisierung liegen die Werte näher an 0, und die Form der Verteilung bleibt erhalten, aber sie ist auf eine einheitliche Skala gebracht.
Wahrscheinlichkeiten mit der Standardnormalverteilung berechnen
Ein großer Vorteil der Standardisierung ist, dass wir nun einfach Wahrscheinlichkeiten berechnen können. Zum Beispiel: Wie groß ist die Wahrscheinlichkeit, dass ein Wert kleiner als $1.96$ ist? Dies entspricht etwa der 95%-Grenze einer Normalverteilung.
In R berechnet man dies so:
# Wahrscheinlichkeit für Z < 1.96
pnorm(1.96)
Das Ergebnis zeigt die Wahrscheinlichkeit, dass ein zufälliger Wert in der standardisierten Normalverteilung kleiner als $1.96$ ist, was etwa 0.975 beträgt.
Das ist zum Beispiel in der psychologischen Diagnostik von großer Relevanz.
Beispiel mit einer Normalverteilung
Neben der Standardnormalverteilung können wir auch Wahrscheinlichkeiten für eine beliebige Normalverteilung berechnen. Angenommen, wir haben eine Verteilung mit Mittelwert $170$ und Standardabweichung $10$, und wir möchten wissen, wie wahrscheinlich es ist, dass ein Wert kleiner als $180$ ist.
# Wahrscheinlichkeit berechnen
pnorm(180, mean = 170, sd = 10)
Dieses Beispiel zeigt, dass etwa 84% der Werte kleiner als $180$ sind, wenn der Mittelwert bei $170$ und die Standardabweichung bei $10$ liegt.
Fazit
Die Standardisierung ist ein wertvolles Werkzeug in der Statistik, um Daten auf eine vergleichbare Basis zu bringen und Berechnungen zu vereinfachen. Mit R kannst du sowohl die Berechnungen durchführen als auch Visualisierungen erstellen, um den Prozess besser zu verstehen.