...

Deskriptive Statistik in R

In diesem Post geht’s um Deskriptive Statistik mit R. Du wirst lernen:

  • Was Deskriptive Statistik überhaupt ist und warum sie so wertvoll ist.
  • Welche Kennzahlen (z.B. Mittelwert, Standardabweichung) Du in R berechnen kannst.
  • Welche R-Funktionen Dir dabei helfen, einen guten Überblick über Deinen Datensatz zu bekommen.

(Falls Du von Statistik noch nicht so viel Ahnung hast – kein Problem. Dieser Post führt Dich Schritt für Schritt heran.)

Zur Wiederholung: Warum Deskriptive Statistik?

Deskriptive Statistik ist die Kunst, Daten zu beschreiben und zusammenzufassen – mithilfe von Kennzahlen (z.B. Mittelwert, Median) und Diagrammen (z.B. Boxplot).

Stell Dir vor: Du hast 1000 Zeilen Daten (Stichprobe von 1000 Personen). Wer soll da noch per Augenschein verstehen, wie die Verteilung ausschaut? Deskriptive Methoden fassen das Ganze so zusammen, dass Du schnell ein Gefühl bekommst, wo die Daten liegen und wie sie streuen.

Diese Kennzahlen sind nicht nur Selbstzweck, sondern essenziell, um Fehler, Ausreißer und Besonderheiten im Datensatz zu entdecken und Hypothesen zu bilden.

Lageparameter und Streuungsmaße in R

Ich gehe davon aus, dass du mit R so weit vertraut bis. Wenn nicht, lies noch mal die R Grundlagen nach.

Lageparameter

  1. Mittelwert ($\bar{x} = \frac{1}{n}\sum x_i$)
    • Empfindlich gegenüber Ausreißern.
  2. Median
    • Teilt sortierte Daten in zwei gleich große Hälften.
    • Robuster gegen Ausreißer.
  3. Modus
    • Der häufigste Wert.

R-Code-Beispiele:

werte <- c(5, 2, 9, 9, 7, 12, 2, 9)

mean(werte)    # Mittelwert

median(werte)  # Median

# Modus per Trick (die 'table'-Funktion)

modus <- names(sort(table(werte), decreasing=TRUE))[1]

modus

Streuungsmaße

  1. Standardabweichung ($s$)
  2. Varianz ($s^2$)
  3. Spannweite (range = Max – Min)
  4. IQR (Interquartilsabstand = Q3 – Q1)

R-Code:

sd(werte)    # Standardabweichung

var(werte)   # Varianz

range(werte) # Spannweite

IQR(werte)   # Interquartilsabstand

Zusammenfassende Funktionen

  • summary(werte) liefert Dir Min, 1st Qu., Median, Mean, 3rd Qu. und Max.

R-Code:

summary(werte)

#   Min. 1st Qu. Median  Mean 3rd Qu.  Max.

#    2       2     8     6.8     9     12

So hast Du in einem Schritt alle wichtigen Zahlen.

Explorative Datenanalyse – Praxisworkflow

Eine typische explorative Datenanalyse in R könnte so aussehen:

  1. Import Deiner Daten, z.B. per read.csv(„myfile.csv“).
  2. Struktur checken: str(data) und summary(data).
  3. Fehlende Werte (NA) inspizieren, z.B. is.na(data).
  4. Beschreibende Kennzahlen pro Variable berechnen (mean, sd, etc.).
  5. Grafische Checks – Histogramme, Boxplots usw. (mehr dazu in den nächsten Blogposts).
  6. Ausreißer untersuchen.
  7. Ggf. Transformation (z.B. log(x)) anwenden, wenn Verteilungen sehr schief sind.

Fazit

Du hast jetzt die Grundlagen zur Deskriptiven Statistik in R parat:

  • Du kennst die Lage- und Streuungsmaße.
  • Du weißt, wie man sie in R berechnet (mean(), median(), sd(), IQR() etc.).
  • Du kannst mithilfe von summary() schnell einen Überblick bekommen.
  • Du hast gesehen, wie ein explorativer Workflow aussehen kann (Import, summary, Boxplot usw.).

In diesem Kontext sind auch Visualisierungen Visualisierung mit Base R relevant: Also den klassischen R-Funktionen plot(), hist(), boxplot(), barplot() und Co.

Alles klar?

Ich hoffe, der Beitrag war für dich soweit verständlich. Wenn du weitere Fragen hast, nutze bitte hier die Möglichkeit, eine Frage an mich zu stellen!