Die Wahrscheinlichkeitsrechnung bildet die Grundlage vieler statistischer Verfahren. Sie hilft uns, mit Unsicherheiten und zufälligen Ereignissen umzugehen, indem sie die Wahrscheinlichkeit für das Eintreten bestimmter Ereignisse quantifiziert. In diesem Blog-Post erkläre ich dir die Grundzüge der Wahrscheinlichkeitsrechnung, sodass du ein solides Fundament hast, um weiter in die Statistik einzutauchen.
Was ist Wahrscheinlichkeit?
Stell dir vor, du würfelst einen fairen Würfel. Die Wahrscheinlichkeit, dass du eine Sechs würfelst, liegt bei 1/6. Aber was genau bedeutet das? Die Wahrscheinlichkeit eines Ereignisses ist eine Zahl zwischen 0 und 1, die angibt, wie wahrscheinlich es ist, dass dieses Ereignis eintritt. Eine Wahrscheinlichkeit von 0 bedeutet, dass das Ereignis nie eintritt, während eine Wahrscheinlichkeit von 1 bedeutet, dass es mit Sicherheit eintritt.
Die Laplace-Wahrscheinlichkeit
Eines der einfachsten Modelle in der Wahrscheinlichkeitsrechnung ist die sogenannte Laplace-Wahrscheinlichkeit, die verwendet wird, wenn alle möglichen Ergebnisse eines Experiments gleich wahrscheinlich sind. Für ein Ereignis $A$ (z.B. das Würfeln einer Sechs) ist die Wahrscheinlichkeit $P(A)$ gegeben durch:
$P(A) = \frac{|A|}{|\Omega|}$
Hierbei ist $|A|$ die Anzahl der günstigen Ergebnisse (z.B. 1 für die Sechs) und $|\Omega|$ die Anzahl der möglichen Ergebnisse (z.B. 6 für den Würfel).
Beispiel: Einfache Würfelrechnung in R
Wenn du einen Würfel wirfst, möchtest du vielleicht die Wahrscheinlichkeit für bestimmte Ereignisse berechnen, z.B. das Würfeln einer Sechs oder einer ungeraden Zahl. Hier ein Beispiel in R:
# Alle möglichen Ergebnisse eines Würfelwurfs
omega <- 1:6
# Wahrscheinlichkeit für das Würfeln einer Sechs
P_sechs <- 1/length(omega)
# Wahrscheinlichkeit für das Würfeln einer ungeraden Zahl
P_ungerade <- length(omega[omega %% 2 == 1]) / length(omega)
P_sechs
P_ungerade
Dieses einfache Beispiel zeigt, wie du die Wahrscheinlichkeiten in einem Laplace-Raum berechnen kannst.
Empirische Wahrscheinlichkeit
In der Praxis hast du es oft nicht mit idealen Laplace-Wahrscheinlichkeiten zu tun, sondern musst Wahrscheinlichkeiten auf Basis von Beobachtungen schätzen. Das nennt man die empirische Wahrscheinlichkeit. Sie gibt an, wie oft ein Ereignis in einer großen Anzahl von Versuchen aufgetreten ist.
Die Formel lautet:
$P(A) \approx \frac{\text{Anzahl der Male, die } A \text{ auftritt}}{\text{Gesamtzahl der Versuche}}$
Beispiel: Münzwürfe in R simulieren
Angenommen, du möchtest wissen, wie oft bei 1000 Würfen einer fairen Münze Kopf erscheint. In R kannst du das wie folgt simulieren:
# Simulation von 1000 Münzwürfen
set.seed(123) # Für Reproduzierbarkeit
würfe <- sample(c("Kopf", "Zahl"), size = 1000, replace = TRUE)
# Häufigkeit von Kopf
kopf_häufigkeit <- sum(würfe == "Kopf") / length(würfe)
kopf_häufigkeit
Dieses Beispiel zeigt dir, wie du Wahrscheinlichkeiten basierend auf wiederholten Experimenten berechnen kannst.
Bedingte Wahrscheinlichkeit
Oft interessiert uns nicht nur die Wahrscheinlichkeit eines Ereignisses, sondern wie sich diese verändert, wenn wir schon wissen, dass ein anderes Ereignis eingetreten ist. Das nennt man bedingte Wahrscheinlichkeit. Die Wahrscheinlichkeit, dass Ereignis $A$ eintritt, wenn $B$ bereits eingetreten ist, wird folgendermaßen berechnet:
$P(A|B) = \frac{P(A \cap B)}{P(B)}$
Ein klassisches Beispiel ist die Wahrscheinlichkeit, dass jemand krank ist, wenn ein positiver Test vorliegt.
Beispiel: Bedingte Wahrscheinlichkeiten in R berechnen
Angenommen, du hast folgende Wahrscheinlichkeiten: Die Wahrscheinlichkeit, dass jemand krank ist, beträgt 0,01, und die Wahrscheinlichkeit, dass ein Test positiv ausfällt, wenn die Person krank ist, liegt bei 0,99. Die Wahrscheinlichkeit, dass der Test auch bei gesunden Personen positiv ist, beträgt 0,05. Du möchtest wissen, wie hoch die Wahrscheinlichkeit ist, dass eine Person tatsächlich krank ist, wenn der Test positiv ausfällt.
# Wahrscheinlichkeiten
P_krank <- 0.01
P_test_pos_krank <- 0.99
P_test_pos_gesund <- 0.05
P_gesund <- 1 - P_krank
# Gesamte Wahrscheinlichkeit für einen positiven Test
P_test_pos <- P_test_pos_krank * P_krank + P_test_pos_gesund * P_gesund
# Bedingte Wahrscheinlichkeit (Satz von Bayes)
P_krank_test_pos <- (P_test_pos_krank * P_krank) / P_test_pos
P_krank_test_pos
Unabhängigkeit von Ereignissen
Zwei Ereignisse $A$ und $B$ sind unabhängig, wenn das Eintreten von $A$ keinen Einfluss auf die Wahrscheinlichkeit von $B$ hat und umgekehrt. Mathematisch bedeutet das:
$P(A \cap B) = P(A) \cdot P(B)$
Ein Beispiel für unabhängige Ereignisse wäre das Werfen zweier Würfel. Das Ergebnis des einen Würfels beeinflusst das Ergebnis des anderen nicht.
Satz von Bayes
Der Satz von Bayes ist eine der wichtigsten Theorien der Wahrscheinlichkeitsrechnung und wird verwendet, um Wahrscheinlichkeiten zu aktualisieren, wenn neue Informationen vorliegen. Er lautet:
$P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}$
Dieser Satz wird oft in Bereichen wie der Medizin und der Datenwissenschaft verwendet, um Entscheidungen unter Unsicherheit zu treffen.
Fazit
Die Wahrscheinlichkeitsrechnung ist das Herzstück vieler statistischer Verfahren. Von der Berechnung einfacher Wahrscheinlichkeiten über bedingte Wahrscheinlichkeiten bis hin zur Anwendung des Satzes von Bayes bietet sie uns Werkzeuge, um mit Unsicherheit umzugehen. Mit den hier gezeigten Beispielen und R-Codes kannst du die Grundkonzepte direkt selbst ausprobieren und anwenden.