Übungsprojekt: Daten erkunden

Lernziele

Am Ende dieser Übung solltest du in der Lage sein:

Items korrekt umzukodieren (reverse coding).
Skalenmittelwerte zu berechnen und die interne Konsistenz mit Cronbach’s Alpha zu bewerten.
Eine Explorative Faktorenanalyse (EFA) mit drei Faktoren durchzuführen.
Deskriptive Statistiken zu berechnen und Verteilungen zu interpretieren.
Schiefe Verteilungen und Ausreißer zu identifizieren.

Übersicht über die Aufgabe

Du hast einen Datensatz mit 20 Variablen, darunter Likert-Skalen-Daten (zur Messung von Motivation, Stress und Engagement) sowie einige kategoriale Variablen (z. B. Geschlecht, Studiengang). Die Likert-Items sind drei vordefinierten Skalen zugeordnet, und einige davon sind reverse-coded.

Deine Aufgabe:

Datensatz laden (R oder SPSS)
Datenstruktur erkunden (Variablentypen, fehlende Werte, Verteilungen)
Reverse Coding durchführen
Skalenmittelwerte berechnen
Explorative Faktorenanalyse (EFA) mit drei Faktoren durchführen
Cronbach’s Alpha berechnen
Schiefe Verteilungen und Ausreißer identifizieren
Ergebnisse interpretieren

Datenbeschreibung

Variable	Typ	Beschreibung
motivation1, motivation2, motivation3, motivation4_rev	Likert (1-5)	Erfasst intrinsische Motivation (motivation4_rev ist umgekehrt kodiert)
stress1, stress2, stress3, stress4_rev	Likert (1-5)	Erfasst wahrgenommenen Stress (stress4_rev ist umgekehrt kodiert)
engagement1, engagement2, engagement3, engagement4_rev	Likert (1-5)	Erfasst akademisches Engagement (engagement4_rev ist umgekehrt kodiert)
age	Numerisch	Alter der Teilnehmenden
gender	Kategorial	1 = Männlich, 2 = Weiblich, 3 = Divers
study_program	Kategorial	Studiengang
GPA	Numerisch	Notendurchschnitt (0-4 Skala)
social_media_hours	Numerisch	Selbstberichtete Social-Media-Nutzung pro Tag (in Stunden)

Daten herunterladen

Schritt-für-Schritt-Anleitung

Datensatz laden
Daten erkunden
- Verteilungen analysieren
- Ausreißer analysieren
Reverse Coding (wo notwendig)
Cronbach’s Alpha für alle Skalen berechnen
Mittelwerte berechnen
EFA durchführen

Lösungen

Lösung in R

Zuerst müssen wir die Daten einmal laden.

read.csv()

Dann können wir uns die Daten mal etwas genauer ansehen. Es ist nicht ganz wichtig, aber es hilft dabei, ein Gefühl für die Daten zu bekommen.

str(data)summary(data)colSums(is.na(data))

Natürlich interessieren uns meistens nicht die Rohdaten, sondern aggregierte Daten, und die sollten wir mal berechnen. Dabei kann es auch sein, dass wir Daten rekodieren müssen.

data$motivation4_rev <- 6 - data$motivation4_revdata$stress4_rev <- 6 - data$stress4_revdata$engagement4_rev <- 6 - data$engagement4_rev

data$motivation_mean <- rowMeans(data[, c("motivation1", "motivation2", "motivation3", "motivation4_rev")])data$stress_mean <- rowMeans(data[, c("stress1", "stress2", "stress3", "stress4_rev")])data$engagement_mean <- rowMeans(data[, c("engagement1", "engagement2", "engagement3", "engagement4_rev")])

Für die tatsächliche Analyse gibt es viele Methoden, aber ich lade hier mal das psych-Package..

library(psych)efa_result <- fa(data[, c(1:12)], nfactors = 3, rotate = "varimax")print(efa_result$loadings)

psych::alpha(data[, c("motivation1", "motivation2", "motivation3", "motivation4_rev")])psych::alpha(data[, c("stress1", "stress2", "stress3", "stress4_rev")])psych::alpha(data[, c("engagement1", "engagement2", "engagement3", "engagement4_rev")])

Wir können die Analyse natürlich auch visuell angehen.

library(moments)skewness(data$GPA)skewness(data$social_media_hours)boxplot(data$GPA, main="GPA Verteilung") boxplot(data$social_media_hours, main="Social-Media-Nutzung")

Interpretation: Faktorenladung (welche Items laden auf welche Faktoren?), Cronbach’s Alpha (interne Konsistenz gegeben?); gibt es schiefe verteilte Variablen bzw. Ausreißer?

Lösung in SPSS

Datei öffnen
Analyse → Deskriptive Statistiken → Häufigkeiten
COMPUTE motivation4_rev = 6 - motivation4_rev. COMPUTE stress4_rev = 6 - stress4_rev. COMPUTE engagement4_rev = 6 - engagement4_rev. EXECUTE.
COMPUTE motivation_mean = MEAN(motivation1, motivation2, motivation3, motivation4_rev). COMPUTE stress_mean = MEAN(stress1, stress2, stress3, stress4_rev). COMPUTE engagement_mean = MEAN(engagement1, engagement2, engagement3, engagement4_rev). EXECUTE.
Analyse → Dimensionenreduktion → Faktorenanalyse
Analyse → Skala → Reliabilitätsanalyse
Analyse → Deskriptive Statistiken → Explore
Interpretation: Faktorenladung (welche Items laden auf welche Faktoren?), Cronbach’s Alpha (interne Konsistenz gegeben?); gibt es schiefe verteilte Variablen bzw. Ausreißer?

Zusammenfassung

Diese Übung kombiniert praktische Datenanalyse mit statistischen Konzepten, um ein tiefes Verständnis für explorative Datenanalyse und Faktorenanalyse zu fördern.

Alles klar?

Ich hoffe, der Beitrag war für dich soweit verständlich. Wenn du weitere Fragen hast, nutze bitte hier die Möglichkeit, eine Frage an mich zu stellen!