In der Welt der Forschung, insbesondere in der Statistik, spielt das Messen eine fundamentale Rolle. Es ermöglicht uns, Eigenschaften oder Merkmale von Objekten und Phänomenen quantitativ zu erfassen und somit vergleichbar zu machen. Doch nicht alle Messungen sind gleich. Die Art und Weise, wie Daten gemessen und interpretiert werden, hängt vom Messniveau oder Skalenniveau ab. In diesem Blogpost werfen wir einen genaueren Blick auf die verschiedenen Messniveaus und deren Bedeutung in der Forschung.
Grundlagen des Messens in der Statistik
Messen bedeutet, Objekten oder Ereignissen Zahlen zuzuordnen, und zwar gemäß festgesetzten Regeln. Diese Zuordnung soll strukturtreu sein, d.h., die Beziehungen zwischen den Zahlen spiegeln die Beziehungen zwischen den gemessenen Objekten wider. Ein einfaches Beispiel hierfür ist die Zuordnung von Zahlen zu Geschlechtern (z.B. weiblich = 1, männlich = 2). Doch diese Zahlen tragen unterschiedliche Informationen, je nachdem, welches Messniveau zugrunde liegt.
Die Skalenniveaus
Die Messniveaus lassen sich in vier Hauptkategorien einteilen: Nominalskala, Ordinalskala, Intervallskala und Ratioskala. Jedes dieser Niveaus bietet unterschiedliche Möglichkeiten der Dateninterpretation.
Nominalskala
Bei der Nominalskala geht es um Kategorien. Daten auf diesem Niveau können in verschiedene Gruppen eingeteilt werden, wobei jede Gruppe durch eine einzigartige Zahl repräsentiert wird. Die einzige sinnvolle Beziehung zwischen diesen Zahlen ist die Gleichheit oder Ungleichheit. Beispiele hierfür sind Religion, Staatsbürgerschaft und Geschlecht. Die Nominalskala ist durch ihre Disjunktivität und Exhausivität gekennzeichnet: Jedes Merkmal erhält einen einzigartigen Code, und alle möglichen Merkmalsausprägungen werden erfasst.
Ordinalskala
Die Ordinalskala erweitert das Konzept der Nominalskala, indem sie eine Rangordnung zwischen den Kategorien einführt. Hierbei ist nicht nur die Zugehörigkeit zu einer Kategorie von Bedeutung, sondern auch die relative Position innerhalb einer Reihe von Kategorien. Beispiele hierfür sind Likert-Skalen und Schulnoten. Obwohl wir wissen, dass eine Note „sehr gut“ besser ist als „gut“, können wir nicht quantifizieren, wie viel besser sie ist.
Intervallskala
Bei der Intervallskala haben die Differenzen zwischen den Messwerten eine Bedeutung. Das bedeutet, dass wir nicht nur die Reihenfolge der Werte kennen, sondern auch den exakten Abstand zwischen ihnen. Ein klassisches Beispiel hierfür ist die Temperaturmessung in Grad Celsius. Die Intervallskala erlaubt es uns, Operationen wie Addition und Subtraktion sinnvoll durchzuführen, jedoch ohne einen natürlichen Nullpunkt.
Ratioskala
Die Ratioskala bietet die meisten Informationen und ist die fortschrittlichste Skala. Zusätzlich zu den Eigenschaften der Intervallskala verfügt die Ratioskala über einen absoluten Nullpunkt, der das Fehlen der gemessenen Eigenschaft anzeigt. Dies ermöglicht es, Verhältnisse zwischen Messwerten zu bilden. Beispiele hierfür sind Einkommen und Körpergröße. Auf dieser Skala sind alle mathematischen Operationen sinnvoll.
Bedeutung der Messniveaus in der Forschung
Das Verständnis der verschiedenen Messniveaus ist entscheidend für die korrekte Analyse und Interpretation von Daten in der Forschung. Jedes Niveau bringt seine eigenen Möglichkeiten und Einschränkungen mit sich, die bei der Datenerhebung, -analyse und -interpretation berücksichtigt werden müssen. Durch die Wahl des geeigneten Messniveaus können Forschende sicherstellen, dass ihre Studien valide und aussagekräftige Ergebnisse liefern.
Die sorgfältige Auswahl und Anwendung der verschiedenen Skalenniveaus ermöglicht es uns, die komplexe Welt um uns herum besser zu verstehen und zu erklären. Ob es darum geht, soziale Phänomene zu klassifizieren, Einstellungen zu messen oder physische Eigenschaften zu quantifizieren, die Kenntnis und Anwendung der richtigen Messniveaus ist ein unverzichtbares Werkzeug in der Forschung.
Nochmal im O-Ton
Skalenniveaus zu verstehen ist sehr wichtig. Und manchmal ist es leichter, dem ganzen im gesprochenen Wort zu folgen. Hier also ein Transkript von einer meiner Vorlesungen über Statistik:
Jetzt konzentriere ich mich auf die Skalenniveaus. Und das ist ein ziemlich wichtiges Thema. Es ist ein wichtiges Thema, weil es dir eine Vorstellung von der Qualität der Daten gibt. Und was noch wichtiger ist: Es wird sehr, sehr wichtig sein, wenn wir uns mit statistischen Tests beschäftigen. Denn eines kann ich dir sagen: Es wird dir leicht fallen, jeden statistischen Test durchzuführen. Du wirst in der Lage sein, diese Tests durchzuführen, und ich werde dir auch genügend Anleitung geben, um diese Tests zu interpretieren. Aber eine Herausforderung, die ich manchmal bei Studierenden sehe, ist, dass sie nicht wissen, welchen Test sie eigentlich wählen sollen. Weil wir eine ganze Reihe von ihnen kennenlernen werden. Es gibt zwischen zehn und 20 Tests, die wir im Kern dieses Kurses behandeln werden. Das Wissen über die Skalenniveaus wird dir helfen diese Entscheidung zu treffen.
Tatsächlich wirst du für den Teilbereich der Statistik, über die wir hier sprechen, eine definitive Antwort darauf bekommen, welchen Test du wählen solltest, wenn du die Skalenniveaus kennst. Es gibt hier vier die du kennen musst.
Der erste ist die Nominalskala, zu der wir gleich noch kommen werden. Dann gibt es die Ordinalskala und schließlich die Intervall- und die Verhältnisskala. In den meisten Statistikprogrammen, z. B. SPSS, werden die letzten beiden einfach zusammengefasst. Sie nennen es Skalenniveau oder metrisches Skalenniveau, und damit meinen sie beide. Für die Anwendung der Statistik ist es also völlig in Ordnung, sich auf diese drei Ebenen zu konzentrieren: die nominale, die ordinale, die metrische.
Fangen wir mit nominalen Daten an. Da steckt der Name drin. Das ist also alles, was wir haben. Im Grunde genommen haben wir Kategorien von Namen. Wir können sagen, dass jemand zu dieser Kategorie gehört oder nicht zu dieser Kategorie gehört. Wenn es zum Beispiel um das Geschlecht geht, gibt es die Kategorien männlich, weiblich und divers. Das sind Bezeichnungen, die du verwenden kannst, und du kannst Personen diesen Kategorien zuordnen, aber du kannst nichts anderes damit machen. Es ist ja durchaus so, dass wir hier – weil wir mit Computern arbeiten – Zahlen für diese Kategorien verwenden. 1 ist männlich, 2 ist weiblich, 3 ist divers. Trotzdem können wir mit diesen Zahlen keine Berechnungen anstellen. Es gibt keine Ordnung in den Daten. Keine Rechnung wäre hier eine gültige Operation, weil du es hier nicht mit echten Zahlen zu tun hast, sondern diese Zahlen sind nur Symbole für Text.
Das war die erste Eben der Skalenniveaus, das nominale Skalenniveau. Wenn du eine Stufe höher gehen willst, hast du ordinale Daten. Und bei ordinalen Daten sieht man die Funktion auch schon in der Bezeichnung – du kannst die Daten ordnen. So hast du plötzlich eine Art von Struktur. In der psychologischen Forschung werden zum Beispiel häufig Likert-Saklen verwendet, also Skalen, die angeben, wie sehr du einer bestimmten Aussage zustimmst. Überhaupt nicht, Ein bisschen, Sehr viel. Anhand dieser Daten kann man sagen, dass es eine gewisse Ordnung gibt.
Aber mit dieser Ordnung kann man noch nicht wahnsinnig viel Anfangen, man kann z.B. nicht einfach plus oder minusrechnung. Das liegt daran, dass die Abstände zwischen diesen Kategorien nicht gleich groß sein müssen. Dazu hier ein Beispiel, das aber ein bisschen von dem Bildungssystem abhängt, in dem du aufgewachsen bist: Viele Bildungssysteme verwenden ein Notensystem mit Ordinalzahlen. Du könntest zum Beispiel die Noten ABCDE und F haben. Natürlich können wir auch einfach die Zahlen 1-6 dazu verwenden.
F könnte die nicht bestandene Note sein, und die anderen fünf könnten die positiven Noten sein, bei denen du den Test tatsächlich bestehst. Aber F deckt normalerweise 50% des gesamten Spektrums ab, richtig? Es handelt sich also nicht um dasselbe Intervall. F kann bedeuten, dass du 0 % im Test erreicht hast, es kann bedeuten, dass du 50 % im Test erreicht hast und die Spanne wird viel kleiner, wenn du die Buchstaben nach oben gehst.
Okay, auch hier kannst du also nicht wirklich Berechnungen anstellen. Du kannst sie nur in eine Reihenfolge bringen. Ja, D ist eine bessere Note als E und F. B ist eine bessere Note als D. Aber du kannst nicht sagen, dass der Unterschied zwischen A und B derselbe ist wie zwischen E und F zum Beispiel.
Wenn du also eine Stufe höher gehen willst, kommen wir zu Daten auf der Intervallskala. Das klassische Beispiel hierfür ist die Temperatur, insbesondere die Celsius- oder die Flossenhöhenskala, denn das Besondere an dieser Skala ist, dass du einige Berechnungen anstellen kannst. Du kannst Temperaturen addieren, du kannst Temperaturen subtrahieren. Du könntest sagen, vier Grad Celsius plus zwei Grad Celsius sind sechs Grad Celsius.
Und das können wir tun, weil die Abstände zwischen einem Grad Celsius oder einem Grad Fahrenheit natürlich immer gleich groß sind. Ich kann also diese Berechnung machen. Was ich aber nicht kann, ist multiplizieren oder dividieren, denn es gibt keine natürliche Basislinie, es gibt keinen natürlichen Nullpunkt. Also sind 40 Grad Celsius nicht doppelt so warm – oder wäre es kalt, Ich weiß nicht – wie 20 Grad? Diese Rechnung geht nicht auf, weil du dafür einen natürlichen Nullpunkt brauchst. Denke an dein Einkommen. Du kannst ein Einkommen von Null haben, du kannst 1000 Einheiten Einkommen haben, du kannst 2000 Einheiten Einkommen haben. Und wenn du das hast, kannst du sagen, ja, 2000 ist genau das Doppelte von 1000. Du kannst also diese Verhältnisse herstellen. Auch hier ist der Name also sehr aussagekräftig, es handelt sich nämlich um eine Verhältnisskala oder Ratioskala.
Das waren die vier Ebenen, die du dir unbedingt merken solltest. Und ich möchte, dass du auch die Hierarchie siehst, in der sie sich befinden. Wenn du dir die Datenqualität vorstellst, könntest du sagen, dass die nominale Ebene eine recht niedrige Qualitätsstufe ist und die Ratio-Ebene sozusagen die höchste Qualitätsstufe darstellt. Und wenn du eine höhere Ebene hast, kannst du sie immer noch auf eine niedrigere Ebene umwandeln. Um dir ein einfaches Beispiel zu geben: Nehmen wir an, ich habe eine Umfrage, in der ich nach deinem Alter frage.
Sag mir also bitte dein Alter in Jahren. Okay, du gibst mir eine Zahl und sagst, es ist 25. Diese Zahl ist also definitiv ein metrischer Wert: 25. Es gibt eine natürliche Null. Das bedeutet, dass 50 genau das Doppelte von 25 ist. Das ist also alles gut. Ich könnte das auch umwandeln, um zu sagen, dass es vielleicht eine jüngere und eine ältere Gruppe gibt. Ich habe vielleicht Studenten. Und ich sage, okay, wenn du unter 29 Jahre alt bist, dann zählst du zu den jüngeren Studenten. Und wenn du älter als 30 oder genau 30 bist, dann zählst du zu den älteren Studenten.
Das ist eine willkürliche Entscheidung, und dann wäre es das ordinales Niveau. Wenn ich will, ich bin mir nicht sicher, ob das in diesem Fall Sinn macht, aber ich kann es natürlich noch weiter aufschlüsseln, z. B. nach Alter, oder einfach Gruppen von Altersgruppen bilden, die ich aus irgendeinem Grund nicht ordnen will.
Okay, der Punkt ist, dass du es immer in eine Richtung transformieren kannst. Du kannst immer von einer höheren Ebene zu einer niedrigeren gelangen, aber das funktioniert natürlich nicht in die andere Richtung. Das ist wichtig zu erkennen, wenn du Daten sammelst und es ein Konzept gibt, das dir sehr wichtig erscheint und mit dem du in deiner statistischen Analyse etwas anfangen willst.
Versuche also, die Informationen auf einer sehr hohen Ebene zu sammeln, wenn das für dich möglich ist.
Und noch ein letzter wichtiger Punkt: Ich habe bereits erwähnt, dass es sich bei den Likert-Skala-Daten um Ordinaldaten handelt, und das ist natürlich richtig. Aber in der Forschung stellen wir oft nicht nur eine Frage, sondern mehrere Fragen. Sogenannte Skalen oder Item-Batterien. Und wenn du den Mittelwert dieser Likert-Skala-Daten nimmst, erhältst du, streng genommen, keine Intervalldaten, aber du kannst sie als solche behandeln.
Der ursprüngliche Artikel von Stevens (1946)
Der Artikel „On the Theory of Scales of Measurement“ von Stevens (1946) behandelt die grundlegenden Theorien und Konzepte der Messskalen und deren Anwendungen in den Wissenschaften. Stevens definiert Messung als die Zuordnung von Zahlen zu Objekten oder Ereignissen nach bestimmten Regeln und klassifiziert Messskalen in vier Haupttypen, basierend auf den zugrunde liegenden empirischen Operationen und mathematischen Eigenschaften:
- Nominalskala:
- Dient der Kategorisierung oder Klassifikation von Objekten.
- Zahlen werden lediglich als Labels genutzt, ohne eine Reihenfolge oder Größe darzustellen.
- Anwendbare statistische Methoden: Modus und Häufigkeitsanalysen.
- Ordinalskala:
- Bestimmt die Reihenfolge oder Rangfolge von Objekten.
- Abstände zwischen den Werten sind nicht definiert.
- Beispiele: Härte von Mineralien, Intelligenz- und Persönlichkeitsbewertungen.
- Statistiken wie Median und Perzentile sind anwendbar, erfordern jedoch Vorsicht.
- Intervallskala:
- Misst Abstände zwischen Werten, wobei der Nullpunkt willkürlich ist.
- Beispiele: Temperatur in Celsius oder Fahrenheit.
- Zulässige statistische Methoden: Mittelwert, Standardabweichung, Korrelationen.
- Ratioskala:
- Enthält einen absoluten Nullpunkt und ermöglicht Aussagen über Verhältnisse.
- Beispiele: Länge, Gewicht, Zeit.
- Alle statistischen Operationen sind möglich, einschließlich logarithmischer Transformationen.
Stevens betont, dass die Auswahl der Skala die Art der statistischen Analysen bestimmt, die auf die Daten angewendet werden können. Er argumentiert, dass Messungen durch klare Regeln definiert sind und schlägt vor, diese Definition als Grundlage für die Bewertung und Klassifizierung von Messskalen zu verwenden.
Der Artikel schließt mit der Feststellung, dass keine Skala perfekt ist, da Messungen immer durch die Präzision und Genauigkeit der zugrunde liegenden empirischen Operationen begrenzt sind. Dennoch bieten diese Klassifikationen eine Grundlage für die systematische Untersuchung von Messverfahren in verschiedenen wissenschaftlichen Disziplinen.