...

Itemanalyse: Wie man hochwertige Testfragen entwickelt

Einleitung

Die Qualität eines Tests hängt maßgeblich von den einzelnen Testfragen, den sogenannten Items, ab. Eine Itemanalyse hilft dabei, die Güte dieser Fragen zu bewerten, zu verbessern und sicherzustellen, dass sie die Zielgruppe angemessen differenzieren.

Was ist Itemanalyse?

Die Itemanalyse ist ein statistisches Verfahren zur Bewertung der Qualität von Testitems. Ziel ist es, festzustellen, wie gut ein Item die Leistung oder die Merkmale einer Zielgruppe differenzieren kann. Sie ist insbesondere im Kontext der Fragebogenkonstruktion von großer Bedeutung.

Definition:
Die Itemanalyse ist ein statistisches Verfahren zur Bewertung der Qualität von Testitems. Ziel ist es, festzustellen, wie gut ein Item die Leistung oder die Merkmale einer Zielgruppe differenzieren kann.

Warum ist Itemanalyse wichtig?

Eine gute Itemanalyse sorgt dafür, dass ein entwickelter Test:

  1. Gültig ist – also das misst, was er messen soll.
  2. Zuverlässig ist – stabile Ergebnisse liefert.
  3. Fair ist – für alle Teilnehmer*innen verständlich und zugänglich ist.

Stell dir vor, du entwickelst einen Intelligenztest. Wenn einige Fragen so schwer sind, dass fast niemand sie beantworten kann, oder so einfach, dass alle sie richtig beantworten, liefern diese Items keine nützlichen Informationen. Die Itemanalyse hilft dir, solche Schwachstellen zu finden.

Bedenke dabei aber, dass die Itemanalyse, die nach einer ersten Datenerhebung stattfindet, nicht eine gute Planung ersetzt!

Die Schritte der Itemanalyse

Die Itemanalyse kann in drei grobe Schritte heruntegebrochen werden:

  1. Datenmatrix erstellen
  2. Items analysieren
    • Schwierigkeit analysieren
    • Varianz analysieren
    • Trennschärfe analysieren
  3. Items selektieren

Schritt 1: Erstellung der Datenmatrix

Bevor die eigentliche Analyse beginnt, werden die Testergebnisse in einer Datenmatrix (Datentabelle) organisiert. Jede Zeile entspricht einer Testperson, jede Spalte einem Item.


Beispiel:

Person Item 1 Item 2 Item 3
1 1 0 1
2 0 1 1

Dieser standardisierte Aufbau ist stets zu beachten und erleichtert alle folgenden Schritte, unabhängig von der gewählten statistischen Software.

Schritt 2: Itemanalyse

Schwierigkeitsanalyse

Items sollen nicht zu leicht und nicht zu schwer sein, denn beides würde uns nicht dabei helfen, zwischen den Fällen unterscheiden zu können (man spricht hier auch von „diskriminieren“).

Die Schwierigkeit eines Items wird als Anteil der Testpersonen berechnet, die es richtig beantworten. Dieser Wert wird als Schwierigkeitsindex ($P_i$) bezeichnet.

$P_i = \frac{\text{Anzahl der richtigen Antworten auf das Item}}{\text{Gesamtanzahl der Teilnehmenden}}$

Beispiel:
In einem Test mit 100 Teilnehmer*innen beantworten 60 Personen eine Frage richtig. Der Schwierigkeitsindex beträgt:
$P_i = \frac{60}{100} = 0,6$
Das Item hat eine mittlere Schwierigkeit.

Ein idealer Schwierigkeitswert liegt oft zwischen 0,2 und 0,8.

Hinweis: Wir befinden uns hier im Rahmen der Klassischen Testtheorie (KTT). Die Item Response Theorie (IRT) hat eine eigene Ansicht über die Schwierigkeit von Items, die von der Beschreibung hier abweicht.

Schwierigkeit bei Leistungstests

Bei Leistungstests können wir explizit zwischen richtigen (R), falschen (F) und ausgelassenen Antworten (A) unterscheiden. Diese Kodierungen (R, F, A) können so direkt in die Datentabelle eingetragen werden.

Die Schwierigkeit berechnet sich dann wie folgt:

$P_i = \frac{\text{Anzahl R}}{\text{Gesamtanzahl der Teilnehmenden}}$

Schwierigkeit bei Persönlichkeitstests

Bei Persönlichkeitstests wirkt die Unterteilung in „richtig“ und „falsch“ nicht ganz passend. Aber durch die Polung einer Skala ergibt es sich, dass eine hohe Zustimmung auch immer sympomatisch für eine hohe Merkmalsausprägung ist – insofern kann man die selbe Logik anwenden.

Das einzig Neue, an das wir denken müssen, liegt an den eventuell vorhandenen vielfältigeren Antwortkategorien. Diese müssen in die Berechnung miteinbezogen werden:

$P_i = \frac{\sum_{v=1}^{n} y_{vi}}{n \cdot (k)} \cdot 100$

Wir nehmen hier als Basis die maximal mögliche Spaltensumme, die sich aus der Fallzahl $n$ und der Zahl der Antwortkategorien $k$ ergibt.

Beispiel: Was ist die Schwierigkeit eines Items (Antwortmöglichkeit 1-5), das von drei Personen mit 2, 3, 4 beantwortet wurde?

Eingesetzt in die Formel ergibt das:

$P_i = \frac{9}{3*5} \cdot 100 = 60%$

Schwierigkeitsanalyse in R
# Beispiel: Schwierigkeitsanalyse
responses <- c(1, 0, 1, 1, 0, 1, 0, 0, 1, 0)
P_i <- mean(responses)
P_i

Itemvarianz

Die Itemvarianz gibt an, wie stark die Antworten auf ein Item streuen. Ein Item mit hoher Varianz kann besser zwischen Personen differenzieren. Wie sie allgemein berechnet wird, findest du in der Diskussion über Streumaße.

Aber an dieser Stelle hier geht das auch anders. Denn wir haben uns vorher schon die Itemschwierigkeit angeschaut, die ja auf eine gewisse Art und Weise den Mittelwert repräsentiert. Wenn wir z.B. von dem Beispiel oben ausgehen, könnten wir berechnen: $P_i \cdot k = 0.6 * 5 = 3$. Das entspricht dem arithmetischen Mittel. Wir könnten dies also auch in die Varianzformel einsetzen und dann umformen, was sich bei zweistufigen Items vereinfacht zu dem Produkt der Wahrscheinlichkeit $P_i$ und der Gegenwahrscheinlichkeit $1-P_i$.

Beispiel:
Für ein Item mit $P_i = 0,6$:
Varianz=0,6⋅(1−0,6)=0,24\text{Varianz} = 0,6 \cdot (1 – 0,6) = 0,24


Trennschärfenindex

Die Trennschärfe ($r_{it}$) misst, wie gut ein Item zwischen leistungsstarken und leistungsschwachen Personen unterscheidet.
Die Trennschärfe ist die Korrelation zwischen den Itemwerten und dem Gesamttestwert. Werte zwischen 0,4 und 0,7 gelten dabei als „gut“. Geht die Korrelation nahe 0, bedeutet das, dass die Messung unabhängig von dem Gesamtwert ist. Ein negativer Korrelationskoeffizient deutet sogar ein umgekehrtes Verhältnis an – vielleicht wurde das Item fälschlicher Weise nicht umgepolt?

Beispiel:
Ein Intelligenztest enthält eine Frage, die von fast allen Personen mit hohem Gesamtergebnis richtig beantwortet wird, aber von kaum jemandem mit niedrigem Ergebnis. Dieses Item hat eine hohe Trennschärfe.

Für die Berechnung der Trennschärfe braucht man den Gesamttestwert. Dieser ist das arithmetische Mittel aller Items, die zu diesem Test zuordenbar sind (d.h. der Zeilenmittelwert!). Achtung: Die Trennschärfe verändert sich demnach, je nach dem welche Items im nächsten Schritt dann tatsächlich selektiert werden! Hier muss iterativ vorgegangen werden.

Trennschärfeanalyse in R
# Beispiel: Trennschärfe
responses <- data.frame(
  Item1 = c(1, 0, 1, 1, 0, 1, 0, 0, 1, 0),
  TotalScore = c(8, 6, 7, 9, 5, 8, 6, 4, 9, 5)
)
cor(responses$Item1, responses$TotalScore)

Schritt 3: Itemselektion

Auf Basis der Schwierigkeitsindizes, Varianzen und Trennschärfen werden Items ausgewählt oder entfernt.

Zuerst können wir uns dafür die Itemschwierigkeit ansehen. Dabei hängt die Selektion vor allem davon ab, über welche Breite wir zuverlässig Diskriminieren wollen. Wenn es z.B. stärker um die mittleren Werte der Skala geht, sind insb. die Itemschwierigkeiten um 0.50 interessant. Grundsätzlich gilt das, je näher die Schwierigkeit bei 0 oder 1 liegt, desto weniger zwischen den Fällen diskriminiert wird.

Zweitens kann auch die Itemvarianz berücksichtigt werden. Hier bekommen die Items mit hoher Varianz den Vorzug,

Und letztens können wir auch die Trennschärfe der Items heranziehen.

Aber Achtung: Es handelt sich hier letztendlich um rein technische Merkmale. Hier muss immer ein Abgleich mit den darunterliegenden theoretischen Annahmen gemacht werden.