Übungsprojekt: Daten erkunden (mittelschwer)

Wie alt sind die Befragten? Wie zufrieden sind sie mit der Demokratie? Und unterscheiden sich Mittelwerte zwischen Frauen und Männern?
In dieser Übung lernst Du, wie Du zentrale Kennzahlen der deskriptiven Statistik für echte Umfragedaten berechnest – mit SPSS und R.

Ziel der Übung

  • Berechnung und Interpretation von Lagemaßen (Mittelwert, Median, Modus)
  • Analyse von Streumaßen (Standardabweichung, Spannweite, IQR)
  • Anwendung in SPSS und R
  • Unterschiedliche Variablentypen verstehen
  • Gruppenvergleiche nach Geschlecht durchführen

Die Daten: ALLBUS 2021

Wir nutzen den ALLBUS 2021-Datensatz (ZA5280) von GESIS. Dieser enthält bevölkerungsrepräsentative Umfragedaten aus Deutschland.

Lade die SPSS-Datei (.sav) herunter (du musst dich davor bei GESIS anmelden, was aber gratis und ohnehin sehr nützlich ist). Du kannst sie in SPSS direkt öffnen oder in R mit dem Paket haven einlesen:

library(haven)
dat <- read_sav("allbus2021.sav")

Die Variablen

Wir analysieren fünf Variablen:

VariableLabel im DatensatzTyp
AlterageMetrisch
Zufriedenheitsatdem*Ordinal (Likert)
BildungsabschlusseducOrdinal/Kategorisch
Einkommen (Haushalt)inc*Metrisch, schief
GeschlechtsexKategorisch (Gruppen)

* Achtung: Hier haben sich „Fehler“ eingeschlichen! Versuche herauszufinden, was du sonst an Variablen aus dem Datensatz nehmen könntest! (Tipp: Dafür ist das dazugehörige Codebook auf der GESIS Homepage sehr hilfreich!)

Deine Aufgabe

Berechne dir bekannte Lage- und Streumaße der angegebenen Variablen. Exploriere die Daten genau, um zu verstehen, was für Zahlen dir eigentlich ausgeworfen werden und wie diese zu interpretieren sind (Achtung, es gibt hier einige Fallstricke!)

Unten findest du Lösungsansätze und insbesondere auch ein kommentiertes Video, dass dich durch den Porzess führt.

Schritt für Schritt durch die Aufgabe

Lösungsvideo für R

Schritt 1: Lagemaße berechnen

Tipp

Wenn du dein Wissen über Lagemaße auffrischen möchtest bevor du loslegst, lies dir nochmal den Beitrag darüber durch!

In R:

mean(dat$age, na.rm = TRUE)
median(dat$age, na.rm = TRUE)


#Alternativ und kompakter über das psych Package
library(psych)
psych::describe(dat$age, na.rm = TRUE)

Über das psych Package kannst du hier mehr erfahren.

In SPSS:

  • Menü: Analysieren > Deskriptive Statistiken > Deskriptive Statistik
  • Variable(n) auswählen
  • Optionen: Mittelwert, Median, Modus anhaken

Schritt 2: Streumaße berechnen

Tipp

Wenn du dein Wissen über Streumaße auffrischen möchtest bevor du loslegst, lies dir nochmal den Beitrag darüber durch!

In R:

sd(dat$age, na.rm = TRUE)
range(dat$age, na.rm = TRUE)
IQR(dat$satdem, na.rm = TRUE)

In SPSS:

  • Menü: Analysieren > Deskriptive Statistiken > Explore
  • Unter „Statistiken“ kannst Du Spannweite, IQR, Standardabweichung auswählen.

Schritt 3: Gruppierte Analyse nach Geschlecht

In R:

library(dplyr)
dat %>% group_by(sex) %>%
summarise(m_age = mean(age, na.rm = TRUE),
sd_age = sd(age, na.rm = TRUE),
med_inc = median(inc, na.rm = TRUE))

In SPSS:

  • Menü: Daten > Dateien aufteilen… > Nach Geschlecht (sex)
  • Dann wie oben: Deskriptive Statistiken berechnen

Schritt 4: Ergebnisse interpretieren

  • Mittelwert vs. Median: Deutet ein großer Unterschied auf Schiefe hin?
  • Streuung: Ist die Gruppe homogen oder stark unterschiedlich?
  • Gruppenvergleiche: Gibt es systematische Unterschiede nach Geschlecht?
  • Welche Maße sind für welche Variable am sinnvollsten?

Fazit

Mit dieser Übung bekommst Du ein Gespür für verschiedene Kennwerte in echten Daten – und wie Du sie schnell in SPSS und R analysierst.
Wenn Du magst, erweitere die Analyse um Grafiken (Boxplots, Histogramme) oder probiere eine andere Gruppierungsvariable (z. B. Region oder Bildung).