[stangl] test & experiment: testtheorien

Zurück zum Überblick
Der psychologische Test
Das psychologische Experiment

Die psychologische Testtheorie beschäftigt sich mit grundsätzlichen Fragen der Möglichkeit von Messung psychologischer Phänomene wie: Kann überhaupt gemessen werden? Welche Fehler treten bei der Messung auf? Wie können diese Fehler vermieden bzw. mit welchen Methoden kontrolliert werden?

Nach Amelang & Zielinski (1997, 34) war der Ausgangspunkt für die Entwicklung einer Testtheorie die Feststellung von Spearman (1910), daß meßfehlerbehaftete Variablen miteinander niedriger korrelieren, als sie es ohne Fehlerbehaftetheit tun würden. Die Testtheorie versucht also, aufgrund von Testergebnissen wahre Ausprägungen von menschlichen Merkmalen festzustellen. Sie geht davon aus, daß das Ergebnis eines Tests mit dem wirklichen Merkmal übereinstimmt, daß es aber dabei zu Meßfehlern kommen kann. Diese Meßfehler sind in dieser Vorstellung einzige Fehlerquelle. Also müssen bloß diese bestimmt werden, damit wahre Aussagen über Merkmale getroffen werden können.

Die Klassische Testheorie, auch "True Score Test Theory", basiert auf dem "True Score Model" mit folgenden Annahmen:

Das erzielte Testresultat besteht aus dem "wahrem Anteil" ("true score") und einem "Fehler", der zufällig ist und negativ oder positiv sein kann.
Führt man den gleichen Test unendliche Male durch und ist jeder Test unabhängig von den anderen, so nähert sich der Fehler Null an.
Der wahre Anteil und der Fehler sind nicht voneinander abhängig. Personen mit besseren Ergebnissen haben weder mehr noch weniger Fehler als die mit schlechteren.

Das "True Score Model" ist eines der verbreitesten, da es einfach erlaubt, Testresultate zu berechnen und Frageschwierigkeiten zu bestimmen, es also etwa im Rahmen der Persönlichkeitsmessund versucht, aufgrund von Testergebnissen wahre Ausprägungen von Persönlichkeitsmerkmalen festzustellen. Sie geht davon aus, dass das Ergebnis eines Tests mit dem reellen Merkmal übereinstimmt, dass es aber zu Messfehlern kommen kann. Diese Messfehler sind in dieser Vorstellung die einzige Fehlerquelle. Also müssen diese bestimmt werden, damit die wahren Ausprägungen von Persönlichkeitsmerkmalen erfasst werden.

Das "True Score Model" ist allerdings keine Theorie, da diese nicht testbar ist. Der "wahre Anteil" und der "Fehler" sind nicht beobachtbar und das Modell sieht auch keine Vorschläge dazu vor. Ein grosses Problem ist weiter, dass Merkmale von Fragen wie z.B. die Schwierigkeit ("item difficulty") oder die Trennschärfe ("item discrimination") von der Stichprobe der Testpersonen abhängig sind, der sie gestellt werden. Eine Frage ist also dann leichter, wenn sie fähigeren Leuten gestellt wird. Die Testleistungen sind kaum durch die Qualität der ausgewählten Items im Test bestimmt, und die Ergebnisse einer Person sind letztlich populationsabhängig. Darüber hinaus müssen allen Testpersonen die gleichen Fragen in der gleichen Anzahl gestellt werden, da die Bewertung davon abhängt, wie viele Fragen korrekt beantwortet wurden und welchen Schwierigkeitsgrad sie besitzen. Als Trennschärfe wird die Korrelation der Beantwortung des einzelnen Items mit der Gesamttestleistung bezeichnet. Items mit hoher Trennschärfe tragen zur Leistungsdifferenzierung bei und sind solchen mit niedrigen vorzuziehen.

NEU: testforum NEU: testforum NEU: testforum NEU: testforum NEU: testforum

Die klassische Testtheorie hat daher drei grundlegende Probleme (Amelang & Zielinski 1997):

Die Skalendignität der untersuchten Merkmale kann nicht genau angegeben werden
Kennwerte sind stichprobenabhängig, die Zulässigkeit von Aussagen bleibt fraglich
Merkmale können nur operational definiert werden, weil nicht überprüft werden kann, ob die Items des Tests bezüglich der Merkmale homogen sind.

Diese nach einer Norm sortierende Testtheorie eliminiert z.B. Items, die in einer Stichprobe alle in einem bestimmten Sinne beantwortet wurden, also keine Streuung aufweisen. Das kann für spezielle Fragestellungen fatal sein, denn gibt es ein Item, das für ein Syndrom positiv oder negativ äquivalent ist, würde genau dieses Item, das am besten kennzeichnet, entfernt werden.

Yousfi (2005) überprüfte die aus der klassischen Testtheorie abgeleitete Empfehlung, Tests aus möglichst trennscharfen Items zusammenzustellen, indem er anhand mathematischer Formeln untersuchte, in welchem Zusammenhang die Trennschärfe mit der Reliabilität und Validität von Items und Testwerten steht. Es zeigt sich, dass die Trennschärfe bei essenziell tau-äquivalenten und tau-kongenerischen Items ein sehr guter Indikator für die Reliabilität und Validität eines Items ist. Wenn die Korrelation der wahren Werte der Items gleich eins ist (tau-Kongenerität), wirkt sich die Itemselektion anhand der Trennschärfe in der Regel auch günstig auf die Gütekriterien des Tests aus. Auch bei unbekannter Beziehung zwischen den wahren Werten der Items eines Tests ist die Trennschärfe als Selektionskriterium durchaus geeignet, die Reliabilität eines Tests zu sichern. Besonders bei wenig reliablen Tests mit hoher Validität ist die Trennschärfe ebenfalls ein guter Indikator der Itemvalidität. Dennoch kann die Selektion von Items anhand der Trennschärfe im Allgemeinen keinen nennenswerten Beitrag zur Sicherung der Testvalidität leisten, denn bei bekannter Itemvalidität wirkt sich ein Item umso günstiger auf die Validität des Tests aus, je geringer dessen Trennschärfe ist. Auch bei unbekannter Itemvalidität lassen sich durch die Trennschärfe allenfalls bei wenig reliablen, aber dennoch validen Tests solche Items identifizieren, die einen bedeutenden Einfluss auf die Validität haben. Bei unbekannter Beziehung zwischen den wahren Werten der Items sollte man bei der Testkonstruktion daher auf die Trennschärfe als Selektionskriterium eher verzichten und statt dessen andere Indikatoren der Itemvalidität verstärkt zu Rate zu ziehen.

Die Kritik an den mangelhaft begründeten theoretischen Grundannahmen der klassischen Testtheorie hatte zur Folge, daß neue, theoretisch besser begründete und mathematisch besser ausgearbeitete Testtheorien entwickelt wurden, die zunehmend den Charakter ausschließlicher Testtheorien verloren und zu Verfahrenstheorien bzw. zu Meßtheorien wurden. Des weiteren wurden neue und verbesserte Schätzverfahren zur Bestimmung der Gütekriterien entwickelt und die Terminologie im Bereich der Standardisierungstheorie und -methodik (Validität, Trennschärfe etc.) international vereinheitlicht. Damit wurden zahlreiche Beiträge zur Lösung des Generalisierungsproblem (Abschätzung der Verallgemeinerbarkeit von Untersuchungsprozeduren und - ergebnissen), zum Prognoseproblem (Verhaltensvorhersage bzw. prognostische Validität) angestoßen.

Diese Nachteile der klassischen Testtheorie versucht der Ansatz der probabilistischen Testtheorie (auch als stochastische bezeichnet) zu umgehen. Stochastische Modelle "gehen davon aus, daß zwischen dem Testergebnis und der zu messenden latenten Dimension von Natur aus ein Wahrscheinlichkeitszusammenhang besteht, nicht ein deterministischer, der bloß durch das Hinzukommen von Fehlern verwischt ist" (Dorsch et al. 1994, 796). Unter der Bezeichnung "Item Response Theory" wurden neue psychometrische Modelle entwickelt, welche die statistischen Eigenschaften der Fragen unabhängig von den Fähigkeiten der Testpersonen messen. Dadurch müssen im Verhältnis zur klassischen Testtheorie wesentlich weniger Fragen gestellt werden, da die Bewertung nicht nur auf der richtigen Antwort beruht, sondern auf weiteren statistischen Eigenschaften der Fragen. Diese Theorien haben ihren Ursprung in der Adaption einer Arbeit von Mosier (1949), dass eine beobachtbare Antwort Schlussfolgerungen über den psychologischen Charakterzug zulässt, der einem Verhalten zugrunde liegt. Die gemessenen Parameter sind die Schwierigkeit ("difficulty"), Trennschärfe ("discrimination ") und der sogenannte Rate-Parameter ("pseudoguessing parameter").

Einer der bedeutendsten Ansätze zur Überwingung der "klassischen Testtheorie" war daher die probabilistische (Fischer 1995), jedoch beruhen meisten in der Praxis eingesetzten psychologischen Tests noch immer auf der klassischen Testtheorie. Die probabilistische Testtheorie sieht Itembeantwortungen (beobachtete Variablen) als Indikatoren für latente Variablen. Diese latente Variable steuert in dieser Vorstellung das Verhalten im Test. Der Zusammenhang zwischen einer Itembeantwortung und latenten Merkmalen ist nicht deterministisch sondern probabilistisch, d.h. die Wahrscheinlichkeit einer Antwort auf ein Item (die Wahrscheinlichkeit der beobachteten Reaktionen) hängt von latenten Merkmalen ab. Es gibt zwei Arten latenter Variablen:

Verhaltensdispositionen (Fähigkeiten, Einstellungen, Persönlichkeitsmerkmale)
Itemmerkmale (Schwierigkeit, Trennschärfe, Anreizmerkmale).

Mithilfe komplexer statistischer Modelle versucht die probabilistische Testtheorie, diese beiden Variablen möglichst genau zu bestimmen. In der Praxis unterscheiden sich allerdings die aufgrund dieser unterschiedlichen theoretischen Konzepte entwickelten Testverfahren kaum. Die logistische Testtheorie setzt voraus, daß die Ausprägung von Merkmalen durch Lösungshäufigkeiten bzw. Lösungshäufigkeitsverhältnisse richtig repräsentiert werden kann, was meist nur bei Fähigkeitsmerkmalen wie Leistungs- und Intelligenztests der Fall ist.

Im Rasch-Modell beispielsweise wird nur die Schwierigkeit als einziger Parameter betrachtet. indem für jedes einzelne Item aus einem wohldefinierten Bereich Item Characeristic Curves (ICC) bestimmt werden, in denen die Wahrscheinlichkeit einer richtigen Antwort gegen die Fähigkeit (ability) einer Testperson für den Fragebereich abgetragen wird. Je höher die Fähigkeiten der Testperson sind, desto wahrscheinlicher ist eine richtige Antwort. Für jedes Item kann seine ICC bestimmt werden, indem es von vielen Personen mit unterschiedlichen Fähigkeitsgraden getestet wird. Im Punkt der stärksten Steigung der Kurve liegt die höchste Information respektive die grösste Trennschärfe. Die Item Response Theorien finden ihre Hauptanwendung bei adaptiven Tests, die sich flexibel an Veränderungen anpassen, da nach jedem einzelnen Item die jeweiligen Parameter berechnet werden und sich aufgrund des Testalgorithmus zum nächsten Item verzweigt oder den Testlauf stoppt. Im Schnitt werden bis zu 50 Prozent weniger Items benötigt, sodass die Belastung der Testperson sinkt und Testzeit eingespart wird. Auch steigt dabei die Messgenauigkeit, da für alle ProbandInnen immer nur jene Items ausgesucht werden, welche sie in ihrem geschätzten Kompetenzbereich am ehesten beurteilen können. Jede Testperson erhält ein unterschiedliches Set von Aufgaben. Ein für die Entwicklung nicht unerheblicher Nachteil ist der grosse Bedarf an gut charakterisierten Items, da für jeden Schwierigkeitsgrad ausreichend Fragen vorhanden sein müssen.

[previous] [index] [close] []

[kontakt]

^{https://testexperiment.stangl-taller.at/}

_@_{}----->---->----}_[_8-})
design_]