Einführung in die Statistik

In diesem Post werden wir uns ein bisschen mehr auf Statistik und quantitative Forschung konzentrieren.

In diesem Post werden wir uns ein bisschen mehr auf Statistik und quantitative Forschung konzentrieren. Es geht hier vor allem um die Anwendung von Statistik im Rahmen einer typischen Abschlussarbeit an einer Hochschule. Wir beginnen mit einer allgemeinen Frage: Warum beschäftigen wir uns eigentlich mit Statistik? Warum sollten wir etwas darüber lernen? Zweitens werden wir grob definieren, worum es in der Statistik eigentlich geht, und dann kommen wir zu den eher technischen Dingen.

Zunächst einmal werden wir über das Paradigma sprechen. Welche Art von Weltanschauung nehmen wir an, wenn wir Statistik anwenden? Immer, wenn wir eine Methode, eine Theorie anwenden, muss es etwas geben, das darüber hinausgeht und oft als Metatheorie oder Paradigma bezeichnet wird, das die Regeln bestimmt und uns sagt: „Ist das wirklich eine gute Methode, die wir anwenden, oder wird die Methode vielleicht auf eine nicht so gute Art und Weise angewendet?“

Außerdem werden wir über die Logik der Wissenserschaffung sprechen, die wir in der statistischen Forschung anwenden. Das ist vor allem eine deduktive Logik.

Und zu guter Letzt verwende ich hier wieder das Wort Logik, aber ich meine etwas ganz anderes. Wenn wir über Statistik sprechen, gibt es normalerweise so etwas wie eine Zielpopulation, über die wir Informationen haben wollen, aber gleichzeitig wollen wir oft nicht Daten über die gesamte Population sammeln. Lass mich ein Beispiel nennen. In einer Zeitung findest du vielleicht eine Umfrage über die nächste Wahl. Normalerweise wird das nicht die Wahl selbst sein. Das wäre sehr teuer. Die Zeitung hat nur ein paar Leute befragt. Aber wie funktioniert das, um trotzdem gültige Rückschlüsse auf die Zielpopulation zu ziehen? Das ist ein wichtiges Element, wenn man über Statistik spricht.

Wieso eigentlich Statistik Lernen?

Hier gehe ich auf ein paar Gründe ein, warum es wichtig ist, etwas über Statistik zu lernen. Und ich möchte dir drei Gründe nennen, warum ich denke, dass Statistik für dich und dein Leben wichtig sein wird.

Der erste Grund ist natürlich, dass es manchmal sehr hilfreich ist, wenn du Entscheidungen triffst, z. B. in der Wirtschaft, aber auch bei jeder anderen Entscheidung im Leben, wenn du deine Entscheidungen mit Daten untermauern kannst. Es gibt einige Beweise im Hintergrund, und Statistiken helfen dir, diesen Hintergrund in der richtigen Weise zu analysieren. Manchmal, wenn es sich um numerische Daten handelt, brauchst du Statistiken und ein allgemeines Verständnis dafür, wie Statistiken funktionieren und wie Wahrscheinlichkeiten funktionieren. Das ist der erste Grund, warum du dich mit Statistik beschäftigen solltest, denn sie hilft dir, bessere und fundiertere Entscheidungen zu treffen.

Der zweite Grund ist, dass viele Menschen irgendwann ihre eigene Forschungsarbeit schreiben. Das kann eine Abschlussarbeit sein, ein Bericht für deine Arbeit, einfach alles. Aber natürlich bist du gezwungen, den ganzen Forschungsprozess, den wir in diesem Kurs lernen, auf eine systematische Art und Weise zu durchlaufen, die von außen nachvollziehbar ist, die Menschen verstehen und mit der sie sich identifizieren können. Es ist also wichtig, nicht nur die Methoden zu beherrschen, wenn du sie anwendest, sondern auch für diese Methoden zu argumentieren und zu verstehen, was genau dort passiert, wie man das Ergebnis interpretiert und so weiter und so fort.

Statistiken gibt es überall.

Und zu guter Letzt möchte ich sagen, dass es eigentlich eine Voraussetzung ist, sich mit Statistik auszukennen, um ein guter Bürger zu sein. Denn Statistiken gibt es überall. Die Politik kommuniziert viel mit Hilfe von Statistiken. Jede Nachrichtenagentur kommuniziert viel mit Hilfe von Statistiken. Überall um uns herum gibt es statistische Informationen. Und es ist gar nicht so einfach, davon auszugehen, dass jede und jeder diese Informationen auch wirklich versteht. Aber wenn du diese Informationen nicht verstehst, wenn du zum Beispiel nicht verstehst, was Politikerinnen und Politiker dir sagen, was bedeutet das eigentlich für dich, für die Gesellschaft, für dein Leben? Dann ist das ein Problem, oder?

Wenn du dich dafür interessierst, bitte ich dich, dir den Fall von Sally Clark anzusehen. Sie war Anwältin in England, die vor allem auf Grund einer statistischen Beweisführung angeklagt wurde und wo Laien und ihr Verständnis von Statistik eine große Rolle spielen. Und dieser Prozess ging wirklich in eine sehr falsche Richtung; und hier vielleicht auch als Trigger Warning: Es ist eine wirklich sehr deprimierende Geschichte. Deshalb werde ich sie an dieser Stelle nicht nacherzählen, aber wenn es dich interessiert, kann ich sie dir wirklich empfehlen; sie ist im Internet gut dokumentiert.

Was ist Statistik überhaupt?

Ich glaube nicht, dass wir ein Problem damit haben, über Statistiken zu sprechen, denn Statistiken sind wirklich allgegenwärtig und ich denke, dass wir schon allein dadurch, dass wir mit ihnen in Berührung kommen, ein Gefühl dafür bekommen haben, was eine Statistik ist und was nicht. Aber im Grunde geht es um einen quantitativen Ansatz, eine Sammlung von Zahlen und anderen quantitativen Informationen, die wir zunächst sammeln und dann auch numerisch analysieren.

Nochmal formaler definiert: Statistik ist die Wissenschaft von der mengen- und zahlenmäßigen Erfassung und Auswertung von Daten. „Mengen- und zahlenmäßige Erfassung“ bedeutet dabei quantifizierbare Ausdrucksformen von Phänomenen, z.B. die Zahl der Auszubildenden im IT-Bereich; Die Mathematik fungiert dabei als Vermittlungssprache; die Bedingung: Das Phänomen muss sich auch zahlenmäßig ausdrücken lassen. „Mmengen- und zahlenmäßige Auswertung“ referenziert dabei auf die Aufdeckung von Tendenzen, Zusammenhängen etc. mit Hilfe von statistischen Maßzahlen in Orientierung an die forschungsleitenden Fragen/Hypothesen.

Statistik ist die Wissenschaft von der mengen- und zahlenmäßigen Erfassung und Auswertung von Daten.

Langenscheidt Wörterbuch

Paradigma / Metatheorie

Wenn wir forschen, haben wir immer eine Reihe von Annahmen darüber, was die Welt, die wir untersuchen, eigentlich ist. Wir brauchen diese Meta-theorien, damit unsere Methoden funktionieren. Diese Meta-Theorien werden auch Paradigmen genannt.

Wenn du dich mit quantitativ-orientierter statistischer Forschung beschäftigst, wenden wir normalerweise ein Paradigma an, das Neopositivismus genannt wird. Was hat es damit auf sich? Nun, es bedeutet im Grunde, dass es so etwas wie eine Realität da draußen gibt, die wir alle wahrnehmen können. Es ist eine Realität, auf die wir alle schauen. Allerdings nehmen wir diese eine Realität nicht immer auf dieselbe Weise wahr.

Es ist eine Realität, auf die wir alle schauen. Allerdings nehmen wir diese eine Realität nicht immer auf dieselbe Weise wahr.

Daraus ergibt sich eine Art probabilistisches Verständnis der Welt, auf das wir uns mit Hilfe von Statistiken stützen. Du und ich, wir beide schauen auf dasselbe Objekt, dieselbe Realität, aber wir haben unsere eigenen Perspektiven, unsere eigenen Vorurteile, und deshalb gibt es nur eine gewisse Wahrscheinlichkeit, dass wir uns über bestimmte Merkmale dieser Realität einig sind.

Wissen deduktiv generieren

In der Wissenschaft im Allgemeinen gibt es verschiedene Möglichkeiten, wie man in der Statistik Wissen generieren kann. In der Statistik arbeiten wir mit einer sehr deduktiven Logik, das heißt, wir haben zunächst eine Theorie, eine Art allgemeines Wissen, und dann sammeln wir Daten und versuchen zu überprüfen, ob unsere Theorie noch stimmt.

Überblick über den Forschungsprozess

Dieses deduktive Schema findest du auch in der folgenden Grafik über den Forschungsprozess wieder:

Hier sind einige der Schritte nochmal zusammengefasst; die vier großen Schritte, die auch das thesistribe Programm strukturieren.

  1. Forschungsmodell klären
  2. Daten sammeln
    • Operationalisierung, Erhebungsinstrumente erstellen, Quantifizierung
    • Erhebung durchführen
    • Daten aufbereiten: Fehlerkontrolle, Fehlerbereinigung
  3. Daten auswerten, Hypothesen testen
    • Bildung von Indizes, Itemanalysen, Skalenwerte; Univariate Statistiken
    • Unterschieds- bzw. Zusammenhangsanalysen
    • Ergebnisse interpretieren
  4. Berichterstattung
    • Einleitung
    • Hintergrund
    • Methode
    • Ergebnisse
    • Diskussion

Exploration vs. Konfirmation

Wir haben also einen Ansatz, der auch als bestätigendes Verfahren bezeichnet wird. Und das ist sehr wichtig, denn damit kannst du keine Forschungsfragen behandeln, die sehr explorativ sind.

Wenn wir zu Beginn keine Theorie haben, sind die Methoden, die wir in den folgenden Abschnitten kennengelernt haben, nicht anwendbar. Wir brauchen eine Theorie.

Also wir haben eine geeignete Forschungsfrage, die brechen wir runter, damit das ganze handhabbar wird. Und das bedeutet zwei Dinge. Erstens müssen wir sie in eine Box packen. Das nennen wir ein statistisches Modell. Wir sind nicht an der Realität in ihrer ganzen Fülle interessiert. Wir interessieren uns nur für einen winzigen Bereich, den wir statistisches Modell nennen und in dem sich unsere Variablen befinden.

Wenn du dich zum Beispiel dafür interessierst, wie sich das Geschlecht auf das Einkommen auswirkt, dann geht es hier um das Geschlecht. Dann gibt es noch ein Konzept, nämlich das Einkommen. Zum Beispiel dein Kompetenzniveau oder etwas Ähnliches, das sich natürlich auf das Einkommensniveau auswirken würde.Wenn das nicht explizit in unserem Modell steht, existiert es für uns und für die statistischen Methoden, die wir anwenden, nicht. Es ist also sehr wichtig, ein gutes Modell zu haben.

Und dann müssen wir auch noch überlegen, wie wir das messen können. Es gibt einen Schritt, den man Operationalisierung nennt, was im Grunde bedeutet, dass man die Dinge messbar machen muss. Und das ist eine sehr, sehr schwierige Sache, oder? Lass mich dir das direkt ins Gesicht sagen. Es ist schwierig, einige Konzepte zu messen. Andere sind einfacher.

Wenn du zum Beispiel sagst, dass du dich für das Geschlecht interessierst, wie es in deinem Reisepass definiert ist. Das ist eine relativ einfach zu untersuchende Variable, denn du kannst einfach in den Pass der Leute schauen und es mit deinen eigenen Augen sehen, richtig? Aber was ist, wenn du zum Beispiel ein differenzierteres Verständnis von Geschlecht hast oder wenn es um die sexuelle Orientierung oder die Persönlichkeit oder etwas Ähnliches geht? Dann ist das nicht direkt beobachtbar. Das ist eine sogenannte latente Variable.

Deshalb müssen wir alle viel darüber diskutieren, wie man solche Dinge messen kann, denn das ist definitiv nicht so einfachUnd wenn wir uns einigermaßen sicher sind, dass das, was wir gemacht haben, mehr oder weniger in Ordnung ist, dass es sich um eine gültige und zuverlässige und objektive Messung handelt, dann können wir tatsächlich die Daten sammeln und stichprobenartig analysieren.

Hier werden wir viele verschiedene Tests kennenlernen, die wir verwenden können. Sie basieren alle auf deiner Theorie, auf deiner Forschungsfrage und auf den Hypothesen, die du aus deiner Forschungsfrage ableitest. Und wenn wir dann ein Ergebnis haben, in der Regel nur ein, zwei Zahlen, dann versuchen wir, diese Zahlen zu interpretieren, schreiben einen Bericht und das war’s. Das ist also die Logik.

Du siehst, es gibt eine sehr deduktive Logik, bei der wir im Vorfeld eine Menge Theorie modellieren, dann die Daten sammeln und dann den Abgleich vornehmen. Nur um einen kleinen Kontrast zu schaffen: Wenn du eine sehr explorative Interviewstudie durchführst, z. B. eine Befragung von Experten auf dem Gebiet, dann hast du manchmal gar keine Theorie. Du interessierst dich einfach für ein bestimmtes Gebiet. Du gehst raus, sprichst mit Leuten und weißt vielleicht nicht einmal, was das Konzept bedeutet, welches du untersuchen willst. Also diskutierst du mit anderen, um das herauszufinden. Und ganz am Ende eines solchen Forschungsprojekts entwickelst du vielleicht eine Hypothese. Das nennt man oft den hypothesengenerierenden Ansatz. Und in unserem Statistikkurs geht es eher darum, Hypothesen zu testen und zu bestätigen.

Egal, was wir in den folgenden Abschnitten tun, egal, welches Projekt du mit Hilfe von Statistik durchführst, versuche, dir über jeden dieser Schritte im Klaren zu sein und darüber, ob sie tatsächlich vorhanden sind. Es muss diese eine Art von linearer Richtung geben, die wichtig ist, damit unser Modell der Wissensgenerierung tatsächlich funktioniert.

Die Logik der schließenden Statistik

Worum es bei der Statistik im Kern? Lass uns an ein Beispiel denken. Denken wir an eine Wahl und eine Vorhersage zu einer Wahl.

Es ist ziemlich kostspielig, alle zu fragen – so wie es bei der Wahl direkt gemacht wird. Deshalb stimmen wir normalerweise nicht täglich ab. Was uns aber täglich begegnet, sind Statistiken, die Vorhersagen über Wahlen machen, und oft sind diese ebenfalls ziemlich genau. Wie funktionieren sie also?

Nun, wir gehen davon aus, dass es eine Gruppe von Menschen gibt, die wählen kann, die sogenannte Grundgesamtheit oder Population. Und aus dieser Grundgesamtheit versuchen wir, eine sogenannte Stichprobe zu ziehen. Bei der Stichprobenziehung werden Personen aus der Grundgesamtheit ausgewählt, die dann in unsere spezielle Stichprobe aufgenommen werden, die wir befragen wollen. In dieser Stichprobe stellen wir dann eine Frage, z. B.: „Wenn du heute wählen würdest, für wen würdest du stimmen?“

Sobald wir diese Daten haben, gibt es einen interessanten Rückschluss auf die Bevölkerung, denn normalerweise geben wir uns nicht damit zufrieden, nur zu beschreiben, wie das Ergebnis aussehen würde, wenn diese bestimmte Stichprobe wählen würde. Wir sind viel mehr daran interessiert, einen sogenannten Rückschluss auf die Bevölkerung zu ziehen und zu sagen: Okay, wenn heute eine Abstimmung wäre, würden wir erwarten, dass die gesamte Bevölkerung so abstimmen würde. Auf diese Weise geht es nicht mehr so sehr um eine bestimmte Stichprobe, sondern um die gesamte Bevölkerung. Und das ist das Schöne an der Statistik: Wir können Rückschlüsse auf die gesamte Bevölkerung ziehen, aber zu einem Bruchteil des Preises, weil wir nur für die kleinere Stichprobe zahlen, die wir befragt haben. Und das können erstaunlich niedrige Zahlen sein.

Es ist also wirklich kosteneffizient, Statistiken zu verwenden. Das bedeutet aber auch, dass ich mir das immer als eine Art geschlossenen Kreislauf vorstelle. Du hast also einerseits die Grundgesamtheit und ziehst eine Stichprobe, um sie zu erhalten, und machst dann eine Schlussfolgerung, um von der Stichprobe zurück zur Grundgesamtheit zu gelangen. Das bedeutet, dass das Stichprobenverfahren ziemlich gut sein muss.

Zusammenfassung

Zweck der Statistik

Worum geht es bei der Statistik? Ich glaube, in der Statistik geht es letztendlich um Entscheidungsfindung, und Entscheidungen treffen wir ziemlich häufig. Wahrscheinlich treffen wir jeden Tag ein paar tausend Entscheidungen. Einige davon sind vielleicht nicht so wichtig, aber bei den wichtigeren wollen wir sichergehen, dass wir eine gute Entscheidung treffen können und dass es vielleicht ein paar Beweise dafür gibt, damit wir uns sicherer fühlen. Hier spielt die Statistik eine sehr große Rolle.

Um dir eine etwas andere Perspektive zu geben: Es geht darum, etwas zu sehen, wo unsere Augen nicht so gut funktionieren. Wenn du dir vorstellst, dass du einen großen Pool von Daten vor dir hast, ist es oft sehr schwierig zu erkennen, was die Zahlen dir eigentlich sagen wollen. Aber Statistiken machen das Bild klarer. Statistik gibt dir eine Brille, mit der du die Strukturen sehen kannst, die deinem Datensatz zugrunde liegen, und das wird dir am Ende helfen, bessere Entscheidungen zu treffen.

Meta-Theorien der Statistik

Was die Metatheorie, das Paradigma, angeht: Welche Regeln gelten für die Statistik? Dies wird oft als neo-positivistisches Paradigma bezeichnet. Du erinnerst dich vielleicht daran, dass es dabei um die Vorstellung einer objektiv realen Welt geht. Die Realität existiert und ist im Grunde für alle gleich, aber mit einem Vorbehalt. Und das ist: Wir können sie nicht auf dieselbe Weise erfassen, da es eine subjektive Ebene, eine subjektive Verzerrung usw. gibt, so dass wir nur eine unvollständige und verzerrte Version dieser objektiven Realität sehen können. Das sollte man zumindest im Hinterkopf behalten, wenn man die Daten interpretiert.

Vielleicht hast du dich schon mit anderen Methoden beschäftigt – vielleicht hast du rekonstruktive Forschung betrieben, z. B. mit narrativen Interviews, in denen die Leute viel über ihre Karriere und ihr Leben und alles andere reden. Deine Herangehensweise an diese Frage wäre eine ganz andere, oder? Das ist sehr wichtig, vor allem, wenn du schon Erfahrung mit anderen Methoden hast, denn dann musst du das vielleicht mental ein bisschen mehr abgrenzen.

Der Prozess der Wissensgenerierung

Und dann haben wir noch über den Prozess der Wissenserschaffung gesprochen. In der statistischen Forschung bedeutet die deduktive Logik, dass wir zuerst eine Theorie oder ein allgemeines Verständnis darüber haben, wie etwas funktioniert, und dann versuchen, sie auf eine bestimmte Beobachtung anzuwenden. Und diese spezifische Beobachtung ist im Grunde dein empirischer Datensatz. Um dich daran zu erinnern: Die deduktive Logik ist ziemlich offensichtlich.

Wenn du dir zum Beispiel eine quantitative Forschungsarbeit ansiehst, wirst du sehen, dass es so etwas wie einen theoretischen Hintergrund gibt, aus dem die Hypothesen abgeleitet werden, richtig? Jede Theorie wird erklärt. Das ist sozusagen der Ausgangspunkt. Dann gibt es einen Abschnitt über die Methoden, in dem beschrieben wird, wie die Daten gesammelt und ausgewertet werden, und schließlich die Ergebnisse, in denen die empirischen Daten präsentiert werden. Das ist also genau die Logik, die ich gerade skizziert habe. Es ist die deduktive Logik: Zuerst haben wir das allgemeine Wissen, die Theorie, dann haben wir die empirischen Ergebnisse, das spezifischere Wissen, könnte man sagen. Und am Ende stellt sich die Frage: Wie gut passen sie zusammen? Ist das, was wir vorher gewusst haben, der theoretische Teil? Ist es mehr oder weniger dasselbe, wie unsere empirischen Daten zeigen? Das ist es, was man in einer Forschungsarbeit die Diskussion nennt.

Ausblick: Inferenzstatistik

Und als letztes haben wir das Thema Schlussfolgerungen bzw. Inferenzen besprochen. Auch darüber werden wir in einem späteren Abschnitt ausführlicher sprechen. Aber es war mir wichtig, das schon hier am Anfang zu skizzieren, weil ich glaube, dass es ziemlich wichtig ist, um zu verstehen, was wir hier eigentlich tun.

Zur Erinnerung: Ich habe mir das immer wie einen Kreis vorgestellt. Wir haben diese Zielgruppe, an der wir wirklich interessiert sind. Aber weil wir vielleicht nicht so viele Daten sammeln können, weil wir die Leute vielleicht gar nicht erreichen können, fragen wir nur ein paar von ihnen – oder wir beobachten ein paar von ihnen. Wie auch immer deine Methoden der Datenerhebung aussehen, auch darüber werden wir gleich sprechen. Wir versuchen es mit einer Stichprobe, wie man es nennt. Das ist ein Stichprobenverfahren, das wir hier anwenden, um die Daten hoffentlich recht unvoreingenommen und ausgewogen zu machen. Repräsentativ ist auch ein Wort, das wir oft hören, und wenn wir dann einige Ergebnisse auf der Ebene der Stichprobe haben, wie die kleine Teilstichprobe der Gesamtpopulation, dann versuchen wir immer noch, eine Schätzung und Rückschlüsse auf die Gesamtpopulation zu machen.

Und genau das ist das Schöne an der Statistik. Ich glaube, das gibt den Methoden, mit denen wir arbeiten, wirklich viel Kraft. Gleichzeitig mahnt es dich natürlich, bei der Ziehung der Stichprobe sehr vorsichtig zu sein. Du brauchst eine sehr gute Stichprobe, sonst könnten deine Daten tatsächlich irreführend sein.