...

Schätzung: Wie wir unbekannte Parameter in der Statistik bestimmen

In der Statistik ist die Schätzung ein unverzichtbares Werkzeug, um aus Stichproben Rückschlüsse auf eine Grundgesamtheit zu ziehen. Doch wie genau funktioniert das, und was sind die wichtigsten Konzepte? In diesem Blog-Post erkläre ich dir die Grundlagen der Schätzung und gebe dir praktische Beispiele, die du direkt in R umsetzen kannst.

Punktschätzung: Ein konkreter Schätzwert

Bei der Punktschätzung geht es darum, einen einzelnen Wert zu bestimmen, der als bester Schätzer für einen unbekannten Parameter der Grundgesamtheit dient. Nehmen wir an, du hast eine Stichprobe von $n$ Beobachtungen $X_1, X_2, \dots$, und du möchtest das arithmetische Mittel der Grundgesamtheit $\mu$ schätzen. Ein bekannter Punktschätzer dafür ist der Stichprobenmittelwert:

$\hat{\mu} = \frac{1}{n} \sum_{i=1}^{n} X_i$

Beispiel: Punktschätzung in R

Angenommen, du hast eine Stichprobe von Körpergrößen (in cm), und du möchtest den Mittelwert der Grundgesamtheit schätzen. Hier ist ein Beispiel, wie du das in R machen kannst:

# Stichprobe von Körpergrößen
groessen <- c(170, 165, 180, 175, 160, 185, 172, 168)

# Mittelwert berechnen
mean(groessen)

Mit diesem Code berechnest du den Stichprobenmittelwert, der als Schätzer für den Mittelwert der Grundgesamtheit dient.

Eigenschaften von Schätzstatistiken

Nicht jeder Schätzer ist gleich gut, daher gibt es bestimmte Eigenschaften, die ein guter Schätzer erfüllen sollte:

  1. Erwartungstreue (Unbiasedness): Ein Schätzer ist erwartungstreu, wenn der Mittelwert seiner Verteilung dem wahren Parameter entspricht. Das bedeutet, dass der Schätzer im Durchschnitt den richtigen Wert liefert.
  2. Konsistenz (Consistency): Ein Schätzer ist konsistent, wenn er sich bei zunehmender Stichprobengröße dem wahren Parameterwert annähert.
  3. Mittlere quadratische Abweichung (Mean Squared Error, MSE): Der MSE gibt an, wie weit die Schätzwerte im Durchschnitt vom wahren Parameterwert abweichen. Er kombiniert Bias und Varianz des Schätzers.

Maximum-Likelihood-Schätzung

Eine der häufigsten Methoden, um Parameter zu schätzen, ist die Maximum-Likelihood-Schätzung (MLE). Hierbei suchst du nach den Werten der Parameter, die die Wahrscheinlichkeit der beobachteten Daten maximieren. Für viele Modelle führt die MLE zu effizienten und konsistenten Schätzern.

Beispiel: MLE in R für eine Normalverteilung

Angenommen, du hast eine Stichprobe, die aus einer normalverteilten Grundgesamtheit stammt. Die Maximum-Likelihood-Schätzer für den Mittelwert und die Standardabweichung einer Normalverteilung kannst du einfach in R berechnen:

# Stichprobe von normalverteilten Daten
daten <- c(5.1, 5.5, 4.9, 5.0, 5.6, 5.2, 4.8, 5.4)

# Maximum-Likelihood-Schätzung
logLik <- function(mu, sigma) {
n <- length(daten)
-n/2 * log(2*pi) - n/2 * log(sigma^2) - sum((daten - mu)^2) / (2 * sigma^2)
}

# Optimierung, um MLE-Schätzer zu finden
mle <- optim(c(mean(daten), sd(daten)), function(par) -logLik(par[1], par[2]), hessian = TRUE)
mle$par # MLE-Schätzer für Mittelwert und Standardabweichung

In diesem Beispiel findest du die Maximum-Likelihood-Schätzer für den Mittelwert und die Standardabweichung einer Normalverteilung.

Intervallschätzung: Mehr als nur ein Punkt

Die Punktschätzung gibt uns einen einzelnen Wert, aber wie sicher sind wir uns dabei? Hier kommen Konfidenzintervalle ins Spiel. Ein Konfidenzintervall gibt einen Bereich an, der mit einer bestimmten Wahrscheinlichkeit (z.B. 95%) den wahren Parameter enthält. Für den Mittelwert einer normalverteilten Grundgesamtheit lautet das 95%-Konfidenzintervall:

$\hat{\mu} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}$​

Hierbei ist $z_{\alpha/2}$​ der entsprechende Wert der Standardnormalverteilung (z.B. 1,96 für 95%).

Beispiel: Konfidenzintervalle in R

Du kannst ein 95%-Konfidenzintervall für den Mittelwert einfach in R berechnen:

# Konfidenzintervall für den Mittelwert
t.test(groessen)$conf.int

Dieser Code gibt dir das Konfidenzintervall für den Mittelwert deiner Stichprobe.

Fazit

Schätzung ist ein essenzieller Bestandteil der Statistik, und es gibt verschiedene Ansätze, um Parameter zu schätzen. Die Punktschätzung liefert einen einzelnen Schätzwert, während die Intervallschätzung dir einen Bereich gibt, der mit hoher Wahrscheinlichkeit den wahren Parameter enthält. Methoden wie die Maximum-Likelihood-Schätzung ermöglichen es uns, präzise Schätzungen für komplexere Modelle zu machen. Mit R kannst du all diese Schätzungen schnell und einfach umsetzen.