...

Einfache Lineare Regression

Die einfache lineare Regression ist ein fundamentales statistisches Verfahren, das dir ermöglicht, Zusammenhänge zwischen zwei Variablen zu untersuchen und Vorhersagen zu treffen. Besonders in den Sozialwissenschaften, der Ökonomie und vielen anderen Disziplinen ist die einfache lineare Regression ein wichtiges Werkzeug, um Erkenntnisse aus Daten zu gewinnen. Aber was steckt eigentlich dahinter und wie wendest du dieses Verfahren an? Lass uns das im Detail anschauen!

Was ist die Einfache Lineare Regression?

Die einfache lineare Regression beschreibt die Beziehung zwischen einer unabhängigen Variablen XXX (zum Beispiel: Anzahl der Stunden, die du gelernt hast) und einer abhängigen Variablen YYY (zum Beispiel: deine Punktzahl im Test). Das Ziel ist, diese Beziehung durch eine Gerade auszudrücken. Diese Gerade hat die Form:

$y_i = \alpha + \beta x_i + \epsilon_i$

Dabei steht:

  • $y_i$​ für die vorhergesagte abhängige Variable (deine Punktzahl),
  • $x_i$​ für die unabhängige Variable (Anzahl der Lernstunden),
  • $\alpha$ ist der Achsenabschnitt (der Wert von $y$, wenn $x$=0),
  • $\beta$ ist die Steigung der Geraden (wie stark sich $y$ ändert, wenn $x$ sich um 1 Einheit erhöht),
  • $\epsilon_i$​ ist der Fehlerterm (alles, was die Punktzahl beeinflusst, aber nicht durch $x$ erklärt wird).

Mit der Methode der kleinsten Quadrate bestimmst du $alpha$ und $beta$, um die Abweichungen der tatsächlichen Werte $y_i$​ von den vorhergesagten Werten möglichst klein zu halten.

Ein einfaches Beispiel

Angenommen, du möchtest wissen, ob es einen Zusammenhang zwischen der Wohnfläche (in Quadratmetern) und der Nettomiete (in Euro) gibt. Du erhebst Daten und erhältst die folgende Tabelle:

Wohnfläche (qm) Nettomiete (Euro)
50 450
60 500
70 550
80 600
90 650

Jetzt möchtest du mit einer linearen Regression die Beziehung modellieren. Dafür nutzt du die Methode der kleinsten Quadrate, um die Werte für $\alpha$ und $\beta$ zu bestimmen.

Berechnung in R

In R kannst du diese Berechnung ganz einfach durchführen. Hier ist der Code:

# Wohnfläche (x) und Nettomiete (y) Daten eingeben
wohnflaeche <- c(50, 60, 70, 80, 90)
nettomiete <- c(450, 500, 550, 600, 650)

# Lineare Regression durchführen
modell <- lm(nettomiete ~ wohnflaeche)

# Zusammenfassung der Ergebnisse anzeigen
summary(modell)

# Plot der Daten und der Regressionsgeraden
plot(wohnflaeche, nettomiete, main = "Lineare Regression: Wohnfläche und Nettomiete",
xlab = "Wohnfläche (qm)", ylab = "Nettomiete (Euro)", pch = 19)
abline(modell, col = "blue")

Mit diesem Code führst du eine einfache lineare Regression in R durch und bekommst sofort eine Übersicht über die geschätzten Werte für $\alpha$ und $\beta$. Außerdem erzeugst du einen Plot, der die Datenpunkte sowie die Regressionsgerade zeigt.

Interpretation der Ergebnisse

Angenommen, das Ergebnis der Regression gibt dir die folgenden Schätzer:

$\hat{y} = 200 + 5x$

Das bedeutet, dass die Nettomiete $y$ im Schnitt um 5 Euro ansteigt, wenn die Wohnfläche um 1 Quadratmeter größer wird. Der Wert von $\alpha = 200$0 besagt, dass die geschätzte Nettomiete für eine Wohnung mit 0 Quadratmetern 200 Euro betragen würde – was natürlich in der Praxis wenig Sinn macht, aber hier als mathematischer Wert dient.

Überprüfung des Modells: Residualanalyse

Eine wichtige Voraussetzung für die einfache lineare Regression ist, dass die Fehlerterme $\epsilon_i$​ zufällig verteilt sind und eine konstante Varianz aufweisen. Um das zu überprüfen, schaust du dir die Residuen an (die Differenz zwischen den beobachteten und den vorhergesagten Werten). In R kannst du die Residuen einfach visualisieren:

# Residuen plotten
plot(residuals(modell), main = "Residualanalyse", ylab = "Residuen", xlab = "Index")
abline(h = 0, col = "red")

Wenn die Residuen zufällig verteilt sind und keine erkennbaren Muster zeigen, erfüllt dein Modell die Voraussetzungen.

Fazit

Die einfache lineare Regression ist ein mächtiges Werkzeug, um den Zusammenhang zwischen zwei Variablen zu untersuchen. Mit R kannst du schnell Modelle erstellen und prüfen, ob die Annahmen des Modells erfüllt sind. In unserem Beispiel konntest du sehen, wie die Wohnfläche die Nettomiete beeinflusst und wie du diese Beziehung mit einer Regressionsgeraden darstellen kannst. Probiere es doch mal selbst mit deinen eigenen Daten!