...

Erweiterung zur klassischen Testtheorie

Die Klassische Testtheorie (KTT) ist ein fundamentales Modell zur Bewertung der Genauigkeit und Validität von Tests, doch sie hat ihre Grenzen. In diesem Beitrag werfen wir einen detaillierten Blick auf einige weiterführende Konzepte der KTT sowie auf Kritikpunkte, die zu neuen Ansätzen in der Testtheorie geführt haben.

Klassische Testtheorie (KTT): Die KTT geht davon aus, dass jede gemessene Testleistung aus einem „wahren“ Wert und einem zufälligen Fehlerwert besteht. Diese Theorie wird oft genutzt, um zu bestimmen, wie genau ein Test einen bestimmten psychologischen oder kognitiven Aspekt misst. Hier kannst du mehr darüber lesen.

Minderungskorrektur (Attenuationskorrektur)

Die Attenuationskorrektur klingt erstmal kompliziert, ist aber im Grunde eine Methode, um genauere Ergebnisse in der Statistik zu bekommen. Stell dir vor, du machst einen Test, sagen wir einen Mathematiktest, und du möchtest wissen, wie gut der Test wirklich misst, wie gut jemand in Mathe ist.

Was ist das Problem?

Jeder Test hat ein paar Ungenauigkeiten – vielleicht hattest du gerade einen schlechten Tag, oder der Test enthält Fragen, die nicht ganz klar sind. Diese kleinen Fehler führen dazu, dass das Testergebnis nicht 100% genau wiedergibt, wie gut jemand wirklich in Mathe ist. In der Statistik nennt man diese Genauigkeit Reliabilität.

Warum ist die Attenuationskorrektur wichtig?

Nehmen wir an, du willst wissen, wie sehr die Mathe-Noten mit den Physik-Noten zusammenhängen (also wie ähnlich die Noten in beiden Fächern sind). Aber wenn der Mathe-Test nicht ganz genau ist, wird die Korrelation, die Verbindung zwischen beiden Noten, weniger stark erscheinen, als sie in Wirklichkeit ist. Hier kommt die Attenuationskorrektur ins Spiel.

Was macht die Attenuationskorrektur?

Die Attenuationskorrektur „rechnet die Fehler raus“. Sie versucht, den Einfluss dieser Ungenauigkeiten zu verringern und gibt dir eine bessere Schätzung davon, wie stark Mathe und Physik wirklich zusammenhängen. Du könntest dir vorstellen, dass sie dir zeigt, wie hoch die Korrelation wäre, wenn der Test perfekt wäre – also ganz ohne Ungenauigkeiten.

Formel

Die Formel für die Attenuationskorrektur sieht so aus:

$$
r_{xy_{\text{kor}}} = \frac{r_{xy}}{\sqrt{r_{xx} \cdot r_{yy}}}
$$

Hier ist, was die einzelnen Symbole bedeuten:

  • $r_{xy_{\text{kor}}}$: Das ist das Ergebnis, die „korrigierte“ Korrelation. Sie zeigt, wie stark der Zusammenhang zwischen zwei Variablen (z. B. Mathe und Physik) wäre, wenn beide Tests perfekt zuverlässig, also fehlerfrei, wären.
  • $r_{xy}$​: Das ist die „unkorrigierte“ Korrelation, also die ursprüngliche Korrelation, die wir vor der Attenuationskorrektur berechnet haben.
  • $r_{xx}$ und $r_{yy}$​: Das sind die Reliabilitäten der beiden Tests (z. B. wie genau der Mathe-Test und der Physik-Test messen). Sie geben an, wie zuverlässig oder „fehlerfrei“ jeder Test für sich genommen ist. Die Reliabilität liegt immer zwischen 0 und 1, wobei 1 bedeutet, dass der Test perfekt ist und 0, dass der Test völlig unzuverlässig ist.

Angenommen, du hast eine unkorrelierte Korrelation $r_{xy}$​ von 0,5 zwischen Mathe und Physik, aber die Reliabilität für den Mathe-Test ($r_{xx}$​) beträgt 0,8 und für den Physik-Test ($r_{yy}$​) ebenfalls 0,8.

Dann sieht die Berechnung so aus:

$$r_{xy_{\text{kor}}} = \frac{0,5}{\sqrt{0,8 \cdot 0,8}} = \frac{0,5}{\sqrt{0,64}} = \frac{0,5}{0,8} = 0,6255$$

Die korrigierte Korrelation wäre also 0,625 anstatt 0,5.

Einfluss der Testlänge auf die Reliabilität

Ein weiterer Aspekt ist die Erkenntnis, dass sich die Reliabilität eines Tests durch die Testlänge steigern lässt. Je länger ein Test, desto mehr Datenpunkte werden gesammelt und desto zuverlässiger wird das Ergebnis. Das ist deshalb so, weil die Verdopplung der Testlänge tatsächlich zu einer Verdoppelung der Fehlervarianz führt, aber zu einer Vervierfachung der wahren Varianz. Hier ist die Erklärung dafür:

In der Klassischen Testtheorie setzt sich das Ergebnis eines Tests (also der beobachtete Wert) aus zwei Komponenten zusammen:

  1. Wahrer Wert: Der tatsächliche Wert, der die Fähigkeit oder das Merkmal des Testteilnehmers widerspiegelt.
  2. Fehlerwert: Zufällige Abweichungen, die durch verschiedene Faktoren (z. B. Müdigkeit, Unaufmerksamkeit) verursacht werden.

Jede Komponente hat ihre eigene Varianz:

  • Die wahre Varianz ist die Varianz der wahren Werte über alle Testteilnehmer hinweg.
  • Die Fehlervarianz ist die Varianz der Fehlerwerte, also die zufällige Schwankung, die den beobachteten Wert weniger genau macht.

Wenn die Länge eines Tests verdoppelt wird, passiert Folgendes:

  1. Fehlervarianz: Da bei einer Verdopplung des Tests die Anzahl der Items verdoppelt wird, wird auch die Anzahl der zufälligen Fehlerquellen (also Fehleranteile) verdoppelt. Daher verdoppelt sich die Fehlervarianz.
  2. Wahre Varianz: Die wahre Varianz wächst jedoch proportional zur Anzahl der Items. Da der Test verdoppelt wird, erhöht sich die wahre Varianz um das Quadrat des Verlängerungsfaktors. In diesem Fall bedeutet das, dass sich die wahre Varianz vervierfacht (also um ( 2^2 = 4 )), weil die wahre Varianz über die längere Messung stabiler geschätzt wird.

Schauen wir uns das nochmal mathematisch an:

Nehmen wir an:

  • Die wahre Varianz eines Tests sei ( $\sigma^2_{\text{wahr}}$ ).
  • Die Fehlervarianz sei ( $\sigma^2_{\text{fehler}}$ ).

Wenn die Anzahl der Items verdoppelt wird:

  • Die Fehlervarianz wird ( $2 \cdot \sigma^2_{\text{fehler}}$ ), weil die Fehlerquellen doppelt so häufig auftreten.
  • Die wahre Varianz wird ( $4 \cdot \sigma^2_{\text{wahr}}$ ), da die wahre Information in jedem Item konsistent ist und die Information durch den längeren Test stabiler wird.

Da die Reliabilität eines Tests als Anteil der wahren Varianz an der Gesamtvarianz definiert ist, bedeutet eine größere wahre Varianz (im Verhältnis zur Fehlervarianz) eine höhere Reliabilität. Deshalb wird der Test bei Verdopplung der Länge reliabler, weil die wahre Varianz schneller wächst als die Fehlervarianz.

Hierfür können wir auch die Spearman-Brown-Prophecy-Formel verwenden:

$$ \text{Reliabilität}{\text{neu}} = \frac{k \cdot \text{Reliabilität}{\text{alt}}}{1 + (k – 1) \cdot \text{Reliabilität}_{\text{alt}}} $$

Dabei steht ( k ) für den Faktor der Testverlängerung (z.B. Verdopplung der Testlänge bedeutet ( k = 2 )).

Kritikpunkte an der Klassischen Testtheorie

Trotz ihrer weit verbreiteten Anwendung gibt es einige fundamentale Kritikpunkte an der KTT.

Hier eine ausführlichere Darstellung dieser drei Kritikpunkte an der Klassischen Testtheorie (KTT):

Statische Annahmen über „wahre“ Werte

Die Klassische Testtheorie (KTT) geht davon aus, dass der wahre Wert einer bestimmten Eigenschaft für eine Person über kurze Zeiträume hinweg stabil bleibt. Das bedeutet, dass eine Person beispielsweise bei einem Intelligenztest heute und morgen nahezu identische „wahre“ Werte hätte, unabhängig von möglichen Schwankungen durch ihre aktuelle Stimmung oder äußere Einflüsse. Diese Annahme funktioniert gut für stabile Persönlichkeitsmerkmale oder kognitive Fähigkeiten, die im Allgemeinen über kürzere Zeiträume konstant bleiben.

Jedoch gibt es viele psychologische Merkmale, die eben nicht konstant sind. Stimmungen beispielsweise können sich im Tagesverlauf ändern – ein Test, der am Morgen durchgeführt wird, könnte völlig andere Ergebnisse liefern als derselbe Test am Abend. Ebenso kann die kognitive Leistungsfähigkeit durch Schlafmangel, Stress oder andere kurzfristige Einflüsse stark schwanken. Wenn die KTT jedoch von einem konstanten wahren Wert ausgeht, übersieht sie solche Schwankungen und kann daher keine zuverlässigen Aussagen über veränderliche Zustände treffen.

Beispiel: Stell dir vor, eine Person macht einen Konzentrationstest an einem stressigen Montagmorgen und noch einmal am Freitagabend, wenn sie entspannt ist. Die wahre Konzentrationsleistung dieser Person könnte an beiden Tagen unterschiedlich sein, was die KTT aber nicht abbilden kann, da sie annimmt, dass die wahre Konzentration immer gleich ist.

Fehlerwerte sind zufällig und unkorreliert

Die KTT nimmt weiterhin an, dass Fehlerwerte (also die Abweichungen vom wahren Wert) bei verschiedenen Testitems zufällig und voneinander unabhängig sind. Dies bedeutet, dass ein Fehler bei einer Frage keinen Einfluss auf die Antworten zu anderen Fragen hat. Auch sollen diese Fehlerwerte über die gesamte Gruppe hinweg in beide Richtungen (positiv und negativ) gleichmäßig verteilt sein, sodass sie sich im Durchschnitt ausgleichen.

In der Praxis gibt es jedoch zahlreiche Einflüsse, die diese Annahme verletzen. Systematische Faktoren wie Prüfungsangst, körperliches Unwohlsein oder anhaltende Ablenkungen könnten mehrere Testfragen beeinflussen und dadurch zu korrelierten Fehlern führen. Wenn eine Person beispielsweise aufgrund von Nervosität in den ersten Fragen schlechter abschneidet, könnte dies auch ihre Leistung bei den folgenden Fragen beeinträchtigen. Dadurch wird die Annahme der Zufälligkeit und Unabhängigkeit von Fehlerwerten durchbrochen, was zu einer Verzerrung der Testergebnisse führen kann.

Beispiel: Ein Schüler könnte aufgrund von Prüfungsangst in den ersten Fragen langsamer arbeiten, was ihn zusätzlich nervös macht und dazu führt, dass er auch bei den folgenden Fragen schlechter abschneidet. Dieser Zusammenhang zwischen Fehlern bei verschiedenen Fragen ist jedoch in der KTT nicht berücksichtigt.

Fehlende Berücksichtigung kognitiver Prozesse

Die KTT konzentriert sich ausschließlich auf die formalen Aspekte der Testergebnisse, also auf die Ergebnisse in Zahlenform, und legt wenig Wert auf die Prozesse, die zu diesen Ergebnissen führen. Die Theorie stellt keine Überlegungen dazu an, wie Testpersonen zu ihren Antworten kommen oder welche kognitiven Strategien und Prozesse hinter den Antworten stehen. Stattdessen sieht die KTT jede Antwort als einfachen Ausdruck des wahren Wertes plus einem zufälligen Fehleranteil.

Moderne Modelle wie die Item-Response-Theorie (IRT) gehen hier einen Schritt weiter und versuchen, die kognitiven Prozesse hinter den Antworten mit einzubeziehen. Die IRT berücksichtigt beispielsweise, dass unterschiedliche Fragen unterschiedliche Schwierigkeitsgrade haben und dass Menschen unterschiedlich auf diese Fragen reagieren. So könnte die IRT erklären, warum eine Person mit mittlerer Fähigkeit leichter auf einfachere Fragen antwortet und mit zunehmender Schwierigkeit der Fragen größere Probleme bekommt. Die KTT hingegen geht davon aus, dass alle Fragen im Test denselben Beitrag zur Messung leisten.

Beispiel: Nehmen wir an, zwei Personen erreichen in einem Wissensquiz den gleichen Punktestand. Die KTT würde daraus schließen, dass beide Personen denselben Wissensstand haben. Die IRT könnte jedoch zeigen, dass eine Person schwierige Fragen richtig beantwortet hat und bei leichten Fragen Fehler gemacht hat, während die andere Person nur die einfachen Fragen richtig hatte. Die IRT würde daher zu einer differenzierteren Bewertung kommen.

Alles klar?

Ich hoffe, der Beitrag war für dich soweit verständlich. Wenn du weitere Fragen hast, nutze bitte hier die Möglichkeit, eine Frage an mich zu stellen!