Einleitung zur Datenerhebung

In diesem Abschnitt geht es um die Datenerhebung und alles, was damit zusammenhängt. Du solltest zuvor schon einen Überblick über das Vorgehen in der Statistik ganz allgemein haben. Auf dieser Seite hatten wir schon das generelle Vorgehen besprochen: Das heißt, ich habe eine Grundgesamtheit, aus der ich mit Hilfe eines Sampling-Verfahrens eine Stichprobe ziehe und dann einen Schluss durchführe. Wenn ich nun an die Datenerhebung denke, z.B. die Datenerhebung im Kontext deiner Abschlussarbeit, werde ich über diese Beziehung zwischen der Grundgesamtheit und der Stichprobe sprechen.

Zunächst sprechen wir über verschiedene Stichprobenverfahren, die wir verwenden können, und wir werden auch darüber diskutieren, wie viele dieser Befragten wir zum Beispiel tatsächlich brauchen – was ist die ideale Stichprobengröße für meine Forschung?

Dann besprechen wir verschiedene Möglichkeiten, wie wir Daten erhalten können. Es gibt ein paar Hauptmethoden, die wir besprechen müssen. Aber eigentlich werden vor allem Umfragen gemacht, um sozialwissenschaftliche Daten zu erheben. Aus diesem Grund haben wir auch eine Lektion zum Thema Surveys, was sie sind und so weiter.

Dann gibt es noch zwei weitere Lektionen in diesem Abschnitt, die sich mit etwas anderen Themen befassen. In der einen geht es um die sogenannten Skalenniveaus. Während es bei der Stichprobenziehung und der ganzen Diskussion, die wir bisher geführt haben, darum geht, wen du fragst, geht es bei den Ebenen der Messung zumindest in gewissem Maße um die Frage: Was fragst du und in welcher Qualität erhebst du deine Daten tatsächlich? Die Datenqualität ist natürlich ein extrem wichtiger Punkt. Denn wenn du hier auf die Skalenniveaus achtest, wird es dir das Leben sehr leicht machen, wenn wir später über Inferenzstatistiken sprechen.

Und schließlich konzentrieren wir uns in diesem Abschnitt auf zwei Themen, die etwas technischer sind: die Faktorenanalyse und die Reliabilitätsanalyse.

Arten der Datenerhebung

Hier möchte ich auf die grundlegenden Möglichkeiten eingehen, wie du Daten für deine Forschungsstudie erhalten kannst. Es gibt mehrere Möglichkeiten, aber eigentlich sind es gar nicht so viele. Wenn du dir ansiehst, was in der Forschung verwendet wird, wirst du feststellen, dass ein Großteil der sozialwissenschaftlichen Forschung auf Daten basiert, die durch Befragungen gewonnen wurden. Das bedeutet, dass in quantitativer Hinsicht oft eine geschlossene quantitative Umfrage verwendet wird, über die wir im weiteren Verlauf des Kurses sprechen werden. Aber eine Befragung kann auch auf eher qualitative Art und Weise erfolgen, zum Beispiel im Rahmen von Interviews.

Ein anderer Ansatz ist die Beobachtung, und Beobachtungen werden oft als die objektivsten Daten bezeichnet, weil du zumindest versuchst, dich nicht in die Szene einzumischen. Du stehst einfach irgendwo und beobachtest etwas, vielleicht bist du gar nicht da und beobachtest etwas, aber du nimmst ein Video auf, was noch weniger aufdringlich ist, und dann studierst du, was das Video zeigt. Und vielleicht hilft dir das, Daten zu sammeln, die nicht so sehr von der Meinung anderer abhängen. Das hört sich toll an, wenn du darüber nachdenkst, Daten zu haben, die nicht so sehr von der Meinung anderer abhängig sind.

Aber auch dieser Ansatz ist natürlich sehr begrenzt, denn es gibt viele, viele, viele Variablen, die uns interessieren könnten, die wir aber nicht beobachten können: Denke zum Beispiel an latente Variablen wie Persönlichkeit. Es ist natürlich sehr schwierig, wenn nicht sogar unmöglich, diese zu beobachten. Man kann nur Verhaltensweisen beobachten, vielleicht einige Eigenschaften, aber wenn es um latente Konzepte geht, wird es wirklich schwierig. Das ist einer der Hauptgründe, warum es rein quantitative gar nicht so viele Beobachtungsstudien gibt.

Es gibt noch ein paar andere Dinge, auf die ich hier hinweisen möchte. Experimente werden oft als Datenquelle genannt, was ich streng genommen etwas seltsam finde, denn selbst wenn du ein Experiment durchführst, stützt du dich in der Regel auf andere Methoden der Datenerhebung. Du nimmst z. B. Proben, du beobachtest etwas, du befragst Leute vorher und nachher. Meiner Meinung nach beschreibt ein Experiment eher den Aufbau einer Studie, ein Forschungsdesign und nicht so sehr ein Verfahren zur Datenerhebung. Ich habe es hier nur erwähnt, weil viele Leute es als eine der klassischen Arten der Datenerhebung bezeichnen. Deshalb möchte ich sie hier nicht unerwähnt lassen.

Ein weiterer Punkt, ist die Übernahme von Daten, die bereits in irgendeiner Form vorhanden sind. Das können zum Beispiel Berichte sein, die bereits geschrieben wurden, und aus denen du versuchst, Daten zu extrahieren, oder vielleicht sogar einen kompletten Datensatz. Das sind also Sekundärdaten, die du nicht für deine Studie gesammelt hast, sondern zum Beispiel in einer großen europäischen Studie, in der viele, viele Fragen gestellt wurden, die für viele Forscher relevant sein könnten. Und dann werden all diese Daten in einer großen Datenbank gesammelt, auf die du als Forscher oder Forscherin einfach zugreifen und die Variablen auswählen kannst, die für dich interessant sind, um dann deine Modelle zu erstellen. Das wäre dann Sekundärdatenforschung.

Das ist natürlich eine großartige Methode, um an Daten zu kommen, denn es ist viel weniger Arbeit, die Daten zu beschaffen. Andererseits bist du auch ziemlich unflexibel, wenn es darum geht, welche Art von Forschungsfragen du tatsächlich stellen kannst, denn die Daten wurden natürlich nicht mit Blick auf deine Forschungsfrage erhoben. Du kannst dir also nicht einfach ein neues Konzept ausdenken, weil dieses Konzept in der Umfrage höchstwahrscheinlich nicht abgefragt wurde.

Dies waren einige Gedanken zu den allgemeinen Methoden der Datenerhebung. Um es kurz zu machen: Die Umfrage wird für den Rest des Kurses das Wichtigste sein, und das ist nicht nur eine pragmatische Entscheidung, sondern spiegelt auch die Realität wider. Wenn du dich in den Sozialwissenschaften umschaust, wirst du feststellen, dass die Mehrheit aller Studien quantitative Erhebungen verwendet.

Die “großen” drei Datenerhebungsverfahren in der Sozialwissenschaft.

Umfrage (Survey)

Jetzt möchte ich darüber sprechen, was eine Umfrage ist, denn ich habe diesen Begriff schon ein paar Mal erwähnt, aber ich habe ihn nicht wirklich definiert, und das ist natürlich keine gute wissenschaftliche Praxis! Das wollen wir also ändern.

Eine Umfrage ist im Grunde eine Sammlung von Fragen bzw. Items, mit deren Hilfe du etwas herausfinden willst. Ich denke, du hast wahrscheinlich selbst schon viele Umfragen ausgefüllt—oder vielleicht auch per Telefon beantwortet, dass du dir vorstellen kannst, wie das aussieht. Ansonsten bitte ich dich, einfach an Tests und Prüfungen zu denken, die du vielleicht während deines Studiums hattest. Stell dir vor, wir machen einen Test über Statistik. Da werden mehrere Fragen drin vorkommen und es gibt ein klares Messziel; Ich möchte herausfinden, wie es um deine statistische Kompetenz bestellt ist.

Ich denke mir also ein paar Fragen aus, vielleicht mit unterschiedlichem Schwierigkeitsgrad. Ich frage dich, du gibst ein paar Antworten – das können Multiple-Choice-Fragen sein, eine Single-Choice-Frage oder ein offener Text, das ist eigentlich egal. Dann werden diese Antworten ausgewertet und ich erhalte ein Ergebnis, zum Beispiel eine Punktzahl. Wie hoch ist dein Kompetenzniveau?

Wenn du während der folgenden Erklärung irgendwann mal unsicher ist, bitte ich dich, an dieses Beispiel zu denken. Prüfungen kennt jede und jeder und tatsächlich sind die Überlegungen zu Umfragen 1:1 auch bei Prüfungen anwendbar.

Nachdem wir nun gesagt haben, dass eine Umfrage eine Sammlung von Items ist, müssen wir darüber reden, was eigentlich ein Item ist. Nun, ein Item besteht normalerweise aus zwei Dingen: einer Frage oder einer Aussage, was oft als Itemstamm bezeichnet wird, und einer Antwortmöglichkeit. Der Itemstamm könnte sowas sein wie “Wie sehr stimmst du der folgenden Aussage XYZ zu? Als Antwortmöglichkeit bieten sich verschiedene Formate an; die Antwort kann offen sein, offen numerisch, oder vielleicht einfach Boxen 1-5.

Beide Dinge zusammen, also der Itemstamm und das Antwortformat, machen ein Item aus und sind im Grunde die Bausteine deiner Umfrage. Und da wir uns hier im Kontext der Statistik befinden, ist es wichtig zu erwähnen, dass wir uns normalerweise auf geschlossene Fragen konzentrieren. Wenn du also die Möglichkeit hast, eine Auswahl zu treffen, ist es natürlich auch in Ordnung, wenn es sich um ein numerisches Format handelt, denn das ist oft nur eine Abkürzung, könnte man sagen. Anstatt also zum Beispiel dein Geburtsjahr auszuwählen und eine riesige Liste durchzugehen, kannst du einfach diese vier Ziffern eingeben. Das geht meistens etwas schneller.

Oft gibt es in Umfragen, vor allem bei Anfängern, zwischendurch ein paar offene Fragen. Und ich möchte dich wirklich dazu ermutigen, das nicht zu tun, wenn du zum Beispiel über deine Abschlussarbeit nachdenkst. Denn das Problem ist wirklich, dass dieses Fragen die Rücklaufquote stark senken können. Zunächst einmal füllen die Leute wahrscheinlich keine offenen Fragen aus. Das ist schon fast ein Gesetz. Wenn du insgesamt 100 Personen an deiner Umfrage teilnimmst, gibt es vielleicht nur eine Handvoll Leute, die auf deine offenen Fragen antworten wollen, wenn es sich um einen ansonsten geschlossenen Fragebogen handelt. Und dann ist nie klar, was man mit diesen wenigen Antworten eigentlich tun.

Und es gibt noch einen zweiten Grund, der noch schwerer wiegt und der mich wirklich zu dem Schluss bringt: Verwende keine offenen Fragen in deiner Umfrage. Und zwar, weil du immer mit Alternativen zum Ausfüllen deiner Umfrage konkurrierst, richtig? Ein Teilnehmer kann zu jedem Zeitpunkt entscheiden, dass es sich nicht lohnt und ich die Umfrage abbreche. Das ist also der schlimmste Fall. Du willst deinen Befragten keinen Grund geben, die Umfrage abzubrechen. Du willst die Umfrage so einfach wie möglich gestalten, damit sie so schnell wie möglich ausgefüllt werden kann, usw. Und offene Fragen verstoßen oft gegen diese Regel. Wenn es sich vermeiden lässt, lass sie weg.

Und das führt uns natürlich zu der Frage, was eine gute Frage ist. Denn du willst nicht irgendeine Frage stellen, sondern nur gute Fragen. Wenn du in der Literatur nachschaust, kannst du viele Kriterien finden. Ich nenne hier nur zwei, nämlich Klarheit und Genauigkeit. Genauigkeit bedeutet, dass wirklich nur das gemessen wird, was man messen will. Das entspricht in gewisser Weise auch der Validität. Die Klarheit der Frage bedeutet auch, dass es für die Befragten einfach ist, eine Antwort zu geben. Du willst nicht, dass die Frage zu komplex ist. Du willst die mentale Belastung für den Teilnehmer so gering wie möglich halten.

Aber jetzt kommt das Problem. Und deshalb bin ich wirklich gegen explizite Kriterienkataloge, was eine gute Frage ausmacht. Was eine gute Frage ausmacht, hängt von der Forschungsfrage und dem Kontext ab, z. B. von der Grundgesamtheit deiner Studie und so weiter. Mein Ansatz wäre also, dass du deine Fragen so lange testest, bis du dir sicher bist, dass die Frage wirklich gut ist. Ich möchte dir eine Idee geben, wie das aussehen könnte.

Und zwar stelle ich dir hier kognitive Pretests mit think-aloud Protokollen vor. Das ist ein ziemlich klangvoller Name, aber eigentlich ist es ganz einfach. Stell dir vor, du willst eine Umfrage verschicken, z. B. für deine Masterarbeit. Du entwirfst die Umfrage und bevor du sie verschickst, versuchst du, eine Person anzusprechen, die deiner Zielgruppe ziemlich ähnlich ist. Das kann natürlich ein Freund oder eine Freundin sein, wenn diese Person der Zielgruppe relativ nahe steht, aber auch jede andere Person. Du bittest sie nur um ein kurzes Interview.

In diesem Interview gibst du dem Teilnehmer die Umfrage und er oder sie füllt sie aus. Aber es gibt eine zusätzliche Aufgabe. Die Person muss laut mitdenken. Deshalb heißt es auch “think aloud” Protokoll. Wenn ich also der Teilnehmer bin, werde ich beim Ausfüllen der Umfrage auch darüber sprechen, was ich sehe, was ich denke und wie ich die Dinge interpretiere. Dadurch erhältst du wertvolle Informationen darüber, welche Begriffe unklar sind und vielleicht missverstanden werden.

Vielleicht denkt der Teilnehmer, er wüsste, worum es bei dieser Frage geht, aber du hast eigentlich etwas ganz anderes gemeint, usw. Und so weiter. Und ich garantiere dir, wenn du das zwei-, dreimal machst, bevor du deine eigentliche Umfrage verschickst, und dann natürlich auch etwas mit dem Feedback machst und deine eigene Umfrage verbesserst, wird dein Umfrageinstrument viel besser sein als dein ursprünglicher Entwurf. Das ist also meine ganz pragmatische Herangehensweise, um gute Fragen zu stellen, und wir kommen ohne absolute Kriterien aus.

Jetzt möchte ich noch eine Tendenz kommentieren, die ich bei vielen Studierenden sehe. Nämlich  merke ich, dass Studierende oft eigene Items entwickeln wollen. Und wenn es dann darum geht, diese Konzepte messbar zu machen, denken sie oft, dass ich dafür Items finden und sie selbst erfinden muss. Das solltest du nicht tun – und zwar aus zwei Gründen.

Erstens ist das viel zu viel Arbeit, oder? Neue Dinge zu erfinden, ist wirklich eine Menge Arbeit. Allein eine Skala für etwas zu entwickeln, könnte eine Masterarbeit sein, vielleicht sogar eine Doktorarbeit! Es ist also schwierig und langwierig.

Und zweitens, was am wichtigsten ist, tust du der Wissenschaft damit keinen Gefallen. Die Wissenschaft arbeitet auf eine sehr kumulative Weise. Es ist immer möglich, dass eine Studie, auch wenn sie noch so gut gemacht ist, zu einem etwas umstrittenen Ergebnis kommt, das sich einfach nicht wiederholen lässt. Das ist durchaus möglich. So ist das in der Wissenschaft. Durch die Wiederverwendung von Elementen, die schon einmal verwendet wurden, schafft man eine gewisse Konsistenz und gibt uns Daten an die Hand, die uns sagen, dass es eine andere Studie gab, die das gleiche Messinstrument verwendet hat und zu diesem und jenem Ergebnis gekommen ist. Dann hast du eine gute Grundlage für einen Vergleich. Also bitte verwende einfach alles wieder, was du in der Wissenschaft findest. Und das ist oft auch ganz einfach. Wenn du zum Beispiel in eine Suchmaschine für wissenschaftliche Artikel gehst, gibst du den Namen deines Konzepts ein und fügst „Skala“ oder ein „Messinstrument“ – am besten auf Englisch- hinzu. In der Regel findest du hier relevante Artikel. Und wenn du dann zum Methodenteil oder vielleicht zum Anhang scrollst, findest du hoffentlich die vollständige Liste der verwendeten Items. Wenn nicht, kannst du dich jederzeit an die Autoren und Autorinnen der Studie wenden und fragen, ob du sie für deine eigene Studie verwenden kannst. Die meisten Wissenschaftler, die ich kenne, sind sehr hilfsbereit, wenn es darum geht, zu antworten und dir die Items zur Verfügung zu stellen.

StichprobeN

Das Problem: Verzerrte Stichproben

Jetzt möchte ich über Stichproben sprechen. Wir haben bereits erwähnt, dass die Stichprobe die Verbindung zwischen der Grundgesamtheit und der Stichprobe herstellt. Und wir haben gesagt, dass sie wichtig ist, weil wir am Ende unserer Analyse einen sogenannten Rückschluss von der Stichprobe auf die Grundgesamtheit ziehen wollen. Und das bedeutet, dass wir voraussetzen, dass das Stichprobenverfahren sehr gut durchgeführt wurde und dass die Daten nicht verzerrt wurden. Was meine ich mit einer verzerrten Stichprobe?

Es gibt eine berühmte Geschichte über Stichproben, die mit der Wahl von Franklin D. Roosevelt zum Präsidenten der Vereinigten Staaten zu tun hat. Damals, als Roosevelt noch nicht Präsident war, gab es zwei Prognosen, die wir uns jetzt ansehen wollen.

Die eine wurde von Literary Digest erstellt. Das war damals in den 1930er Jahren ein ziemlich großes und beliebtes Magazin, das all seinen Abonnenten eine Frage stellte, die 2,4 Millionen ihrer Kunden beantworteten und ihre fiktive Stimme abgaben. Für wen würde ich stimmen, wenn heute Wahltag wäre? Auf der anderen Seite gab es Gallup, ein Marktforschungsinstitut, das auch heute noch existiert und sehr bekannt ist. Sie hatten eine sehr viel kleinere Stichprobe als Literary Digest. Aber sie hatten einen großen Vorteil. Da die Umfrage nur an Abonnenten verschickt wurde, konnte Literary Digest nicht jeden erreichen, der die Möglichkeit hat, bei einer echten Wahl seine Stimme abzugeben.

Gallup hingegen hatte diese Freiheit, und sie hatten ein ausgefeiltes Stichprobenverfahren, um eine kleine, aber repräsentative Stichprobe für die gesamten Vereinigten Staaten zu erhalten. Und am Ende gab es einen gewaltigen Unterschied. Literary Digest war der Meinung, dass Landon die Wahl vor Roosevelt gewinnen würde, und prognostizierte sogar einen Erdrutschsieg. Gallup hingegen setzte sozusagen auf das richtige Pferd und machte eine sehr gute Vorhersage darüber, wer der nächste Präsident sein wird und wie der genaue Ausgang der Wahl sein wird.

Diese Geschichte zeigt uns, dass es wichtig ist, eine unvoreingenommene Stichprobe zu haben, die repräsentativ für die gesamte Bevölkerung ist, auf die man Rückschlüsse ziehen möchte.

Stichprobeverfahren

Lass uns noch ein bisschen mehr über Stichproben sprechen. Welche Arten von Stichprobenverfahren gibt es? Diejenige, die dir wahscheinlich schon etwas sagt ist, wohl die einfache Zufallsstichprobe. Sie ist sozusagen der Goldstandard, von dem viele behaupten, er sei das Einzige, was du für echte Wissenschaft verwenden solltest. Das bedeutet, dass jeder Fall in deiner Population die gleiche Wahrscheinlichkeit hat, für deine Stichprobe ausgewählt zu werden. Das hört sich ziemlich einfach an, aber in Wirklichkeit ist es ziemlich kompliziert, das zu erreichen, denn oft gibt es einige kontextuelle Einflüsse, die deine Zufallsauswahl beeinflussen. Stell dir zum Beispiel vor, du gehst dienstags um 10:00 Uhr in dein Lieblingseinkaufszentrum und verteilst zufällig deine Fragebögen. Das ist natürlich nicht wirklich zufällig, denn es ist nur ein bestimmter Teil der Bevölkerung, der sich an diesem Tag und zu dieser Uhrzeit in dem Einkaufszentrum aufhält.

Wenn du also das Gefühl hast, dass es sich um eine Zufallsstichprobe handelt, dann ist das nicht immer der Fall. Einige Formen, die funktionieren, sind zum Beispiel die Zufallszahlenwahl, bei der du ein Telefon hast, das nach dem Zufallsprinzip einige Nummern wählt und du dann mit demjenigen sprichst, der sich meldet. Oder du hast eine Liste mit allen Angestellten eines Unternehmens und lässt den Computer eine zufällige Wahl treffen. Es gibt also durchaus Möglichkeiten, das zu tun. Aber es ist ziemlich unwahrscheinlich, dass du das für den Großteil deiner Forschung tun wirst, denn was ich dir auch über die sozialwissenschaftliche Forschung sagen kann, ist, dass wir fast nie Zufallsstichproben haben. Das ist so etwas wie der Goldstandard, aber selbst in der Wissenschaft ist das eher selten der Fall.

Deshalb möchte ich dir die nächste Variante davon vorstellen, nämlich die Quotenstichprobe. Quotenstichproben sind viel praktischer, weil du einfach sagst: Okay, es gibt bestimmte Dimensionen, die mir sehr wichtig sind, zum Beispiel Geschlecht und Alter. Und da möchte ich eine ausgewogene Verteilung haben oder eine Verteilung, die meiner Grundgesamtheit entspricht. Ich könnte also sagen, okay, ich will 50-50 in Bezug auf das Geschlecht und vielleicht will ich zwei Drittel ältere Menschen, was auch immer das für mich bedeutet, und ein Drittel jüngere Menschen. Dann bekomme ich eine Vorstellung davon, wie viele Leute ich will, und kann die Zahlen einfach eingeben. Das ist eine ziemlich kosteneffiziente Lösung. Außerdem hat es den Vorteil, dass es viel zielgerichteter ist als eine Zufallsstichprobe, denn selbst bei einer Zufallsstichprobe gibt es natürlich das Problem, dass ich bei einer relativ kleinen Stichprobengröße, sagen wir 100 Personen, vielleicht immer noch 80 % weibliche Teilnehmer habe, obwohl ich eigentlich 50-50 haben wollte. Das kann natürlich auch bei einer Zufallsstichprobe passieren, bei einer Quotenstichprobe. Das ist aber nicht so sehr der Fall. Andererseits besteht das Problem bei Quotenstichproben natürlich darin, dass ich meine relevanten Dimensionen im Voraus festlegen muss. Das muss ich bei einer Zufallsstichprobe nicht tun, denn bei einer Zufallsstichprobe werden alle möglichen Kriterien, sowohl bekannte als auch unbekannte, implizit berücksichtigt. Selbst wenn es also eine sehr seltene Krankheit gibt, gibt es einen bestimmten Anteil, eine bestimmte Wahrscheinlichkeit, dass diese Krankheit in unserem Stichprobenverfahren im richtigen Verhältnis repräsentiert wird. So funktioniert eben der Zufall.

Und zu guter Letzt möchte ich dir noch das Convenience Sampling vorstellen. Ein Convenience Sample ist zunächst einmal, genau wie es sich anhört, ziemlich bequem für dich, weil du dich nicht anstrengst, um Verzerrungen zu vermeiden, sondern einfach das nimmst, was logistisch einfach für dich ist. Aber wenn du das tust, brauchst du dich deswegen nicht schlecht zu fühlen. Denn viele Studien, selbst in der veröffentlichten Wissenschaft, basieren auf solchen Stichproben. Nehmen wir zum Beispiel den Bereich der Psychologie, der ein ziemlich großes Problem hat: Viele psychologische Studien beruhen auf Stichproben von Studierenden, und das ist im ersten Fall natürlich schon ein Problem – weil sie alle ein ziemlich ähnliches, junges Alter haben. Aber wir wissen auch, dass das Verhältnis zwischen den Geschlechtern unter den Psychologiestudierenden oft ziemlich unausgewogen ist. Aus der Perspektive der Stichprobenbildung gibt es hier einige Probleme.

Es gibt natürlich noch mehrere Stichprobeverfahren. Erwähnt werden kann noch das Klumpenverfahren, bei den auf mehreren Ebenen gesampelt wird (zuerst in den Klumpen, z.B. Klassen einer Schule, dann innerhalb eines Klumpens, also z.B. Schüler*innen der ausgewählten Klumpen). Praktische Relevanz hat auch die Schneeballtechnik. Beispiel: Untersuchung über Homosexualität von Dannecker und Reiche (1974). Die Fragebögen wurden an homosexuelle Freunde und Bekannte verteilt, die ihrerseits Fragebögen im Freundes- und Bekanntenkreis weiterreichten. Auf Basis dieser Stichprobenauswahl können keine Aussagen über die Grundgesamtheit gemacht werden, aber man bekommt guten Zugang zu einer Population, für die es kein Verzeichnis oder so etwas gibt!

Man kann auch (insb. in der qualitativen Forschung) nach datengesteuerte Verfahren (Zusammensetzung ergibt sich erst im Untersuchungsverlauf, z.B. fallkontrastierung oder bestätigende Auswahl) und theoriegesteuerte Verfahren unterscheiden (z.B. qualitative Stichprobenpläne).

Beispiele aus der Forschungspraxis

Ein weiteres klassisches Beispiel für das Stichprobenproblem findet sich auch im medizinischen Bereich. Ich denke da vor allem an Tests mit der Haut, z. B. wie die Sonneneinstrahlung die Haut verändert, ob sie gesund oder ungesund ist. Hier ist es klar, dass die Forscherinnen und Forscher Haut brauchen, um ihre Forschung durchzuführen, aber es ist auch klar, dass sie wahrscheinlich kein Tier verwenden können, weil die menschliche Haut ganz anders ist als die Haut vieler anderer Tiere. Man auch meistens keine lebenden Menschen zu solchen Studien einladen kann, weil das für sie schädlich sein könnte. Was hier dann oft verwendet wird ist die Vorhaut beschnitterner Jungen. Das ist natürlich toll, weil es eine Art Datenquelle ist, die sonst nicht genutzt würde. Auf der anderen Seite bringt es natürlich ein Problem mit der Stichprobe mit sich, denn das Alter und das Geschlecht der Stichprobe sind im Vergleich zur Gesamtbevölkerung extrem verzerrt. Hier braucht es dann mindestens eine sehr starke theoretische Fundierung, mit der man belegen kann, dass solche Schlüsse zu einer weiteraus heterogeneren Grundgesamtheit trotzdem irgendwie passend sind.

Stichprobengröße (Fallzahl)

Jetzt möchte ich auf die Stichprobengröße eingehen, die du für deine Studie brauchst. Natürlich möchtest du eine möglichst hohe Stichprobengröße haben. Dafür gibt es eine Reihe von Gründen, auf die wir zurückkommen werden, wenn wir uns mit den Details der Statistik befassen. Grundsätzlich gilt: Je größer die Stichprobe, desto genauer sind deine Schätzungen.

Das ist also der Hauptgrund, warum du mehr Daten haben willst. Allerdings gibt es natürlich auch Kosten, die bei der Beschaffung zusätzlicher Daten berücksichtigt werden müssen. Wir müssen uns also überlegen, welche Datenmenge sinnvoll ist. Es ist sehr schwierig, hier eine Antwort zu geben, die wirklich alle Fragen beantwortet. Aber ich möchte dir ein paar Kriterien an die Hand geben, die du bei deiner eigenen Forschung oder bei der Bewertung der Forschung anderer anwenden kannst.

Im Grunde hängt es von der Komplexität des Modells ab. Wenn du ein sehr, sehr, sehr komplexes Modell mit vielen Variablen, vielen verschiedenen Beziehungen, die du testen willst, Mediatoren, Moderatoren, was auch immer, dann hast du einen höheren Bedarf an Daten und an Stichprobengröße. Wenn es sich um einen sehr einfachen Test handelt, vergleichst du vielleicht nur Gruppen von Menschen. Du hast zum Beispiel zwei Gruppen. Du hast ein Kriterium, das dich interessiert und das auch leicht zu messen ist. Dann kannst du mit erstaunlich wenigen Daten auskommen.

Die meisten Studien liegen irgendwo dazwischen. Wenn ich an eine Masterarbeit denke, hast du normalerweise eine mittelgroße Komplexität, würde ich sagen. Um dir eine Zahl zu nennen: 100 bis 200 Fälle sind normalerweise ganz okay. Aber das ist natürlich nur eine Zahl. Diese Zahl ist ziemlich bedeutungslos. Du musst dir dein Modell wirklich genau ansehen.

Ein zweiter Punkt, der deine Entscheidung beeinflusst, ist die Größe des Effekts, den du untersuchen willst. Handelt es sich um einen Effekt, der voraussichtlich ziemlich groß, sehr deutlich sein wird? Es gibt eine sehr starke Beziehung zwischen zwei Variablen. Dann brauchst du nicht so viele Daten, denn wenn es so offensichtlich ist, dann siehst du es fast mit den bloßen Augen.

Aber was ist, wenn es ein wirklich winziger Effekt ist? Nun, dann musst du wirklich hineinzoomen. Es ist ein bisschen wie bei einem Mikroskop, würde ich sagen. Du brauchst mehr Daten, um den Effekt zu vergrößern und ihn für dich sichtbar zu machen. Die Größe oder zumindest die erwartete Größe des Effekts, den du untersuchen willst, ist also das zweite Kriterium, das generell sehr wichtig ist.

Zum Abschluss möchte ich noch eine Faustregel nennen, die oft in Lehrbüchern zitiert wird. Sie muss natürlich mit Vorsicht genossen werden. Aber oft ist es so: Multipliziere die Anzahl der Variablen in deinem statistischen Modell mit 20. Dann kommst du auf die Anzahl der Fälle, die für deine Studie nützlich sein könnten. Du siehst also, dass diese Faustregel die erwartete Effektgröße außer Acht lässt, aber sie berücksichtigt die Komplexität des Modells so halbwegs, denn wenn du mehr Variablen hast, ist es sehr wahrscheinlich, dass dein Modell komplexer ist als ein Modell mit weniger Variablen.

Fehlerquellen bei der Stichprobenziehung

  • Zufallsfehler der Stichprobe
  • Systematische Fehler
    • Stichprobenziehung
    • Messfehler
    • Fehlerquellen im Interview
    • Diskrepanz zwischen Zielpopulation und Surveypopulation
    • Non-Response

Skalenniveaus

Jetzt konzentriere ich mich auf die Skalenniveaus. Und das ist ein ziemlich wichtiges Thema. Es ist ein wichtiges Thema, weil es dir eine Vorstellung von der Qualität der Daten gibt. Und was noch wichtiger ist: Es wird sehr, sehr wichtig sein, wenn wir uns mit statistischen Tests beschäftigen. Denn eines kann ich dir sagen: Es wird dir leicht fallen, jeden statistischen Test durchzuführen. Du wirst in der Lage sein, diese Tests durchzuführen, und ich werde dir auch genügend Anleitung geben, um diese Tests zu interpretieren. Aber eine Herausforderung, die ich manchmal bei Studierenden sehe, ist, dass sie nicht wissen, welchen Test sie eigentlich wählen sollen. Weil wir eine ganze Reihe von ihnen kennenlernen werden. Es gibt zwischen zehn und 20 Tests, die wir im Kern dieses Kurses behandeln werden. Das Wissen über die Skalenniveaus wird dir helfen diese Entscheidung zu treffen.

Tatsächlich wirst du für den Teilbereich der Statistik, über die wir hier sprechen, eine definitive Antwort darauf bekommen, welchen Test du wählen solltest, wenn du die Skalenniveaus kennst. Es gibt hier vier die du kennen musst.

Der erste ist die Nominalskala, zu der wir gleich noch kommen werden. Dann gibt es die Ordinalskala und schließlich die Intervall- und die Verhältnisskala. In den meisten Statistikprogrammen, z. B. SPSS, werden die letzten beiden einfach zusammengefasst. Sie nennen es Skalenniveau oder metrisches Skalenniveau, und damit meinen sie beide. Für die Anwendung der Statistik ist es also völlig in Ordnung, sich auf diese drei Ebenen zu konzentrieren: die nominale, die ordinale, die metrische.

Fangen wir mit nominalen Daten an. Da steckt der Name drin. Das ist also alles, was wir haben. Im Grunde genommen haben wir Kategorien von Namen. Wir können sagen, dass jemand zu dieser Kategorie gehört oder nicht zu dieser Kategorie gehört. Wenn es zum Beispiel um das Geschlecht geht, gibt es die Kategorien männlich, weiblich und divers. Das sind Bezeichnungen, die du verwenden kannst, und du kannst Personen diesen Kategorien zuordnen, aber du kannst nichts anderes damit machen. Es ist ja durchaus so, dass wir hier – weil wir mit Computern arbeiten – Zahlen für diese Kategorien verwenden. 1 ist männlich, 2 ist weiblich, 3 ist divers. Trotzdem können wir mit diesen Zahlen keine Berechnungen anstellen. Es gibt keine Ordnung in den Daten. Keine Rechnung wäre hier eine gültige Operation, weil du es hier nicht mit echten Zahlen zu tun hast, sondern diese Zahlen sind nur Symbole für Text.

Das war die erste Eben der Skalenniveaus, das nominale Skalenniveau. Wenn du eine Stufe höher gehen willst, hast du ordinale Daten. Und bei ordinalen Daten sieht man die Funktion auch schon in der Bezeichnung – du kannst die Daten ordnen. So hast du plötzlich eine Art von Struktur. In der psychologischen Forschung werden zum Beispiel häufig Likert-Saklen verwendet, also Skalen, die angeben, wie sehr du einer bestimmten Aussage zustimmst. Überhaupt nicht, Ein bisschen, Sehr viel. Anhand dieser Daten kann man sagen, dass es eine gewisse Ordnung gibt.

Aber mit dieser Ordnung kann man noch nicht wahnsinnig viel Anfangen, man kann z.B. nicht einfach plus oder minusrechnung. Das liegt daran, dass die Abstände zwischen diesen Kategorien nicht gleich groß sein müssen. Dazu hier ein Beispiel, das aber ein bisschen von dem Bildungssystem abhängt, in dem du aufgewachsen bist: Viele Bildungssysteme verwenden ein Notensystem mit Ordinalzahlen. Du könntest zum Beispiel die Noten ABCDE und F haben. Natürlich können wir auch einfach die Zahlen 1-6 dazu verwenden.

F könnte die nicht bestandene Note sein, und die anderen fünf könnten die positiven Noten sein, bei denen du den Test tatsächlich bestehst. Aber F deckt normalerweise 50% des gesamten Spektrums ab, richtig? Es handelt sich also nicht um dasselbe Intervall. F kann bedeuten, dass du 0 % im Test erreicht hast, es kann bedeuten, dass du 50 % im Test erreicht hast und die Spanne wird viel kleiner, wenn du die Buchstaben nach oben gehst.

Okay, auch hier kannst du also nicht wirklich Berechnungen anstellen. Du kannst sie nur in eine Reihenfolge bringen. Ja, D ist eine bessere Note als E und F. B ist eine bessere Note als D. Aber du kannst nicht sagen, dass der Unterschied zwischen A und B derselbe ist wie zwischen E und F zum Beispiel.

Wenn du also eine Stufe höher gehen willst, kommen wir zu Daten auf der Intervallskala. Das klassische Beispiel hierfür ist die Temperatur, insbesondere die Celsius- oder die Flossenhöhenskala, denn das Besondere an dieser Skala ist, dass du einige Berechnungen anstellen kannst. Du kannst Temperaturen addieren, du kannst Temperaturen subtrahieren. Du könntest sagen, vier Grad Celsius plus zwei Grad Celsius sind sechs Grad Celsius.

Und das können wir tun, weil die Abstände zwischen einem Grad Celsius oder einem Grad Fahrenheit natürlich immer gleich groß sind. Ich kann also diese Berechnung machen. Was ich aber nicht kann, ist multiplizieren oder dividieren, denn es gibt keine natürliche Basislinie, es gibt keinen natürlichen Nullpunkt. Also sind 40 Grad Celsius nicht doppelt so warm – oder wäre es kalt, Ich weiß nicht – wie 20 Grad? Diese Rechnung geht nicht auf, weil du dafür einen natürlichen Nullpunkt brauchst. Denke an dein Einkommen. Du kannst ein Einkommen von Null haben, du kannst 1000 Einheiten Einkommen haben, du kannst 2000 Einheiten Einkommen haben. Und wenn du das hast, kannst du sagen, ja, 2000 ist genau das Doppelte von 1000. Du kannst also diese Verhältnisse herstellen. Auch hier ist der Name also sehr aussagekräftig, es handelt sich nämlich um eine Verhältnisskala oder Ratioskala.

Das waren die vier Ebenen, die du dir unbedingt merken solltest. Und ich möchte, dass du auch die Hierarchie siehst, in der sie sich befinden. Wenn du dir die Datenqualität vorstellst, könntest du sagen, dass die nominale Ebene eine recht niedrige Qualitätsstufe ist und die Ratio-Ebene sozusagen die höchste Qualitätsstufe darstellt. Und wenn du eine höhere Ebene hast, kannst du sie immer noch auf eine niedrigere Ebene umwandeln. Um dir ein einfaches Beispiel zu geben: Nehmen wir an, ich habe eine Umfrage, in der ich nach deinem Alter frage.

Sag mir also bitte dein Alter in Jahren. Okay, du gibst mir eine Zahl und sagst, es ist 25. Diese Zahl ist also definitiv ein metrischer Wert: 25. Es gibt eine natürliche Null. Das bedeutet, dass 50 genau das Doppelte von 25 ist. Das ist also alles gut. Ich könnte das auch umwandeln, um zu sagen, dass es vielleicht eine jüngere und eine ältere Gruppe gibt. Ich habe vielleicht Studenten. Und ich sage, okay, wenn du unter 29 Jahre alt bist, dann zählst du zu den jüngeren Studenten. Und wenn du älter als 30 oder genau 30 bist, dann zählst du zu den älteren Studenten.

Das ist eine willkürliche Entscheidung, und dann wäre es das ordinales Niveau. Wenn ich will, ich bin mir nicht sicher, ob das in diesem Fall Sinn macht, aber ich kann es natürlich noch weiter aufschlüsseln, z. B. nach Alter, oder einfach Gruppen von Altersgruppen bilden, die ich aus irgendeinem Grund nicht ordnen will.

Okay, der Punkt ist, dass du es immer in eine Richtung transformieren kannst. Du kannst immer von einer höheren Ebene zu einer niedrigeren gelangen, aber das funktioniert natürlich nicht in die andere Richtung. Das ist wichtig zu erkennen, wenn du Daten sammelst und es ein Konzept gibt, das dir sehr wichtig erscheint und mit dem du in deiner statistischen Analyse etwas anfangen willst.

Versuche also, die Informationen auf einer sehr hohen Ebene zu sammeln, wenn das für dich möglich ist.

Und noch ein letzter wichtiger Punkt: Ich habe bereits erwähnt, dass es sich bei den Likert-Skala-Daten um Ordinaldaten handelt, und das ist natürlich richtig. Aber in der Forschung stellen wir oft nicht nur eine Frage, sondern mehrere Fragen. Sogenannte Skalen oder Item-Batterien. Und wenn du den Mittelwert dieser Likert-Skala-Daten nimmst, erhältst du, streng genommen, keine Intervalldaten, aber du kannst sie als solche behandeln.

Gütekriterien

Frage: Welche Kriterien fallen dir ein, die quantitative Forschung “gut” machen?

  • Objektivität (Unabhängigkeit von den durchführenden Personen)
    • Durchführungsobjektivität (Unabhängigkeit der Messung von den Messenden)
    • Auswertungsobjektivität (Unabhängigkeit zwischen einer Auswertung und der auswertenden Personen)
    • Interpretationsobjektivität (Unabhängigkeit zwischen der interpretierenden Person und der Interpretation)
  • Validität (es wird das gemessen, was gemessen werden soll)
    • Inhaltsvalidität (alle Aspekte werden gemessen)
    • Kriteriumsvalidität (hoher Zusammenhang zwischen dem gemessenen Konstrukt und eines externen Kriteriums)
    • Vorhersagevalidität (genaue Prognosen sind möglich)
  • Reliabilität (wiederholte Messungen mit einem Messinstrument sollten unter den gleichen Bedingungen zu dem gleichen Ergebnis gelangen)

Frage HR: Inwiefern sind diese Kriterien in deiner Organisation beim Theme Personalauswahl erfüllt?

Messen

  • Messen ist die Zuordnung von Zahlen zu Objekten gemäß festgesetzten Regeln.
  • Strukturtreue: die Zahlen müssen zueinander Beziehungen aufweisen, die den Beziehungen der gemessenen Objekte entsprechen.

6.7.1 Messniveau

Wir wandeln üblicher Weise alle Daten in Zahlen um (z.B. weiblich = 1, männlich = 2). Diese Zahlen (bzw. Codes) transportieren aber unterschiedliche Informationen:

  • Nominalskala: Von den Relationen zwischen den bei der Messung verwendeten Messwerten darf nur die Gleichheit bzw. Ungleichheit empirisch sinnvoll interpretiert werden. Nominale Daten werden auch kategoriale Daten genannt.
    • Disjunkt (Exklusivität): jede potenzielle Merkmalausprägung bekommt einen eigenen Code.
    • Erschöpfend (Exhausivität): alle potenziellen Merkmalausprägungen werden erfasst.
  • Ordinalskala: zusätzlich kann die Rangordnung empirisch sinnvoll interpretiert werden
  • Intervallskala: zusätzlich können die Differenzen der Messwerte empirisch sinnvoll interpretiert werden.
  • Ratioskala: zusätzlich können die Größenverhältnisse der Messwerte empirisch sinnvoll interpretiert werden.

Frage: Fallen dir Beispiele für jedes Messniveau ein?

  • Nominal: Religion, Staatsbürgerschaft, Geschlecht
  • Ordinal: Likert-Skalen, Schulnoten
  • Intervall: Temperatur
  • Ratio: Einkommen, Körpergröße

 Datenmanagement

Fälle selektierenhttps://www.youtube.com/embed/QcABfU6wCBk

Daten umkodierenhttps://www.youtube.com/embed/H86eeEBsIdA

Items zusammenfassen

  • Skalen bilden: Items können zu Mittelwerten oder Summen zusammengefasst werden, um Skalen zu bilden.

https://youtube.com/watch?v=yXO5ST52Ufwhttps%3A

Weiterführend

Gütekriterien: Ein Beispielhttps://www.youtube.com/embed/PNJHwd4wF6U?start=2220

Don't miss the next post

Get informed about freebies for research and teaching, new offers of any of my products, career opportunities, and more in my newletter.

Legal

Privacy Policy
Terms and Conditions

Contact

Customer login

Social

Copyright Dominik E. Froehlich, 2022

This page contains the information about the website required by Austrian law (Impressumspflicht, Offenlegung gem § 25 MedienG, § 5 ECG).

Contact Information

Dominik E. Froehlich, PhD
A: Perfektastr. 58/2/21, 1230 Vienna, Austria
M: info at dominikfroehlich.com
T: +43 660 2 2345 25