Nach Lienert
(1989) unterscheidet man Haupt- und Nebengütekriterien.
Hauptkriterien sind die Objektivität, die
Reliabilität und die Validität,
Nebengütekriterien sind die Ökonomie
(Wirtschaftlichkeit), Nützlichkeit, Normierung und
Vergleichbarkeit von Testverfahren. Weist ein Test diese
Gütekriterien nicht auf, kann man im eigentlichen Sinne nicht
von einem Test sprechen, da ihm die wissenschaftlich
überprüften Grundlagen und notwendigen
Kontrolluntersuchungen fehlen. Psychologische Tests müssen auch
standardisiert sein, d.h. sie enthalten eine Testanweisung,
die vorschreibt, wie der Test vorgenommen und durchgeführt
werden muß. Das gleiche gilt für die Auswertung eines
Tests, denn auch diese muß feste Regeln enthalten, so daß
verschiedene Auswerter zum gleichen Ergebnis kommen.
Objektivität ist das Ausmaß, in dem ein Testergebnis in
Durchführung, Auswertung und Interpretation vom Testleiter
nicht beeinflußt werden kann, bzw. wenn mehrere
Testauswerter zu übereinstimmenden Ergebnissen kommen. Weder
bei der Durchführung noch bei der Auswertung und
Interpretation dürfen also verschiedene Testexperten
verschiedene Ergebnisse erzielen. Die
Durchführungsobjektivität fordert, daß das
Testergebnis vom Testanwender unbeeinflußt bleibt. Die
Interpretationsobjektivität fordert, daß
individuelle Deutungen nicht in die Interpretation eines
Testwertes miteinfließen dürfen. Die meisten
quantitativen Verfahren sind im Hinblick auf die Objektivität
standardisiert, einige qualitative Tests benötigen allerdings
eine Objektivitätsprüfung. Die Durchführung eines
Tests kann z. B. mit Hilfe von exakt festgelegten Instruktionen
über die Testvorgabe, die Auswertung und Interpretation
vereinheitlicht werden.
Ein nicht untypisches Beispiel für einen Verstoß
gegen dieses Testgütekriterium ist z.B. ein Test auf
Schulreife: Ein mit der Durchführung betrauter Lehrer
läßt es aus mißverstandener Humanität zu,
daß die Mütter im Raum bei den Kindern bleiben.
Die Auswertungsobjektivität fordert, daß die
Vergabe von Testpunkten vom Auswerter unabhängig ist. Sie
kann überprüft werden, indem man z. B. die Antworten
eines Probanden aus einem Intelligenztest verschiedenen Auswertern
zur Bearbeitung übergibt und ihre Übereinstimmungen
ermittelt. Es entstehen z. B. Schwierigkeiten, wenn für eine
eher "schlechte" Antwort nur ein Punkt, für eine "gute"
Antwort hingegen zwei Punkte gegeben werden sollen. Nennt ein
Proband als Oberbegriff für "Katze" vielleicht "Haustier",
ein anderer lediglich "Tier", so muß der Test klare
Anweisungen dafür enthalten, ob die eine Antwort höher
bewertet werden soll als die andere - oder seine Objektivität
weist Mängel auf.
Fairness gibt das Ausmaß an, in welchem die resultierenden Testwerte zu keiner systematischen Diskriminierung bestimmter ProbandInnen auf Grund ihrer ethnischen, soziokulturellen, bildungsmäßigen oder geschlechtsspezifischen Gruppenzugehörigkeit führen. Dieser Aspekt ist vor allem im Hinblick auf die Migration bzw. Mobilität der Menschen im 21. Jahrhundert bedeutsam und müsste stärker als bisher berücksichtigt werden (vgl. Kubinger
2005).
Reliabilität
(Zuverlässigkeit)
gibt die Zuverlässigkeit einer Meßmethode an. Ein Test
wird dann als reliabel bezeichnet, wenn es bei einer Wiederholung
der Messung unter denselben Bedingungen und an denselben
Gegenständen zu demselben Ergebnis kommt. Sie läßt
sich u.a. durch eine Testwiederholung (Retest-Methode) oder einen
anderen, gleichwertigen Test ermitteln (Paralleltest). Das
Maß ist der Reliabilitätskoeffizient und
definiert sich aus der Korrelation der beiden Testungen. Bildlich: Wenn man mit einer Kanone ein Ziel anvisiert und
die Kanonenkugeln zwar nicht das Ziel treffen, aber immer an der
gleichen Stelle einschlagen, dann besitzt das Instrumentarium eine
hohe Reliabilität.
Validität
(Gültigkeit)
ist das wichtigste Testgütekriterium, denn es gibt den Grad
der Genauigkeit an, mit dem ein Testverfahren das mißt, was
es messen soll (z.B. Persönlichkeitsmerkmale oder
Verhaltensweisen). Die Überprüfung der Gültigkeit
wird mithilfe der Korrelation mit einem
Außenkriterium vorgenommen. So einfach wie die
Validität einer Kanone zu bestimmen - hier wäre die
Anzahl der Treffer ein geeignetes Maß - ist es im Bereich
des Psychischen eben nicht ;-)
Man unterscheidet in den Sozialwissenschaften verschiedene
Arten der Validität:
Konstruktvalidität: Konstruktvalidität
liegt dann vor, wenn Messungen das erfassen, was sie erfassen
sollen (wird ein Konstrukt nur aus hoher Korrelation
erschlossen, dann Konstruktvalidität=Reliabilität).
Werden aus einem Konstrukt Hypothesen abgeleitet, dann bedeutet
eine hohe Konstruktvalidität die gute empirische
Bestätigung dieser Hypothesen. Eine geringe
Konstruktvalidität spricht nicht unbedingt gegen die
Messung, sie kann auch gegen das Konstrukt an sich sprechen.
Diese Form der Validität setzt also psychologisches
Wissen um das Konstrukt voraus, also Kenntnis der
zugehörigen Theorien und der einschlägigen Befunde.
Für die Validität eines Aggressivitätstests kann
es z. B. sprechen, wenn Männer höhere Werte erzielen
als Frauen und wenn junge Männer (etwa 20jährige)
höhere Werte aufweisen als ältere (etwa
40jährige), denn im allgemeinen sind Aggressivitäten
in unserem Kulturbereich bei jungen Männern deutlich
ausgeprägter als bei Frauen und älteren Männern
(nachweisbar in den Kriminalstatistiken). Die Ergebnisse einer
Testkonstruktion müssen letztlich also mit dem
Gesamtwissen zum Konstrukt übereinstimmen.
Als ein besonderes Verfahren zur Bestimmung der
Konstruktvalidität gilt die Faktorenanalyse: Mit
Hilfe aufwendiger Rechenverfahren wird ermittelt, welche
Testaufgaben "zusammengehören", also in etwa das gleiche
erfassen. Es bilden sich gleichsam Klumpen von Testaufgaben.
Gewöhnlich ist es nicht einmal sonderlich schwer, solche
Klumpen (Faktoren) zu interpretieren; man sieht z. B.,
daß unter vielen (Intelligenz-)Aufgaben jene, die den
Umgang mit Zahlen verlangen, einen besonderen Faktor bilden;
sie werden künftighin als "zahlengebundenes Denken" in
einem Teiltest zusammengefaßt. Faktorenanalysen werden
einerseits vom theoretischen Vorwissen der Forscher gesteuert;
andererseits wird dieses durch die empirisch ermittelten
Faktoren ergänzt oder gar korrigiert. Gerade auch beim
Einsatz von Computern müssen viele subjektive
Entscheidungen getroffen werden, denn es stehen z. B. viele
Varianten von Faktorenanalysen zur Verfügung.
Ein Beispiel für hohe Konstruktvalidität ist etwa das
Milgram-Experiment.
Bei diesem Experiment wurden Personen zum Lehrer ernannt und
sollten einen Schüler bestrafen, wenn dieser auf eine
gestellte Frage eine falsche Antwort gab. Dabei wurden die
Versuchspersonen nicht über den eigentlichen Grund des
Experimentes aufgeklärt. Die Bestrafung erfolgte mittels
Elektroschocks von 5 Volt bis 400 Volt. Der Lehrer (die
Versuchsperson) konnte den Schüler zwar nicht sehen, aber
hören. Dabei wurde dem Schüler nicht wirklich Schaden
zugefügt. Dieses Experiment sollte die Gehorsamkeit von
Menschen unter einer gewissen Autorität messen. Die
unabhängige Variable war die Autorität, die eindeutig
durch die Voltzahl gemessen werden konnte. Die Frage war: Wann
(bei welcher Voltzahl) bricht eine Versuchsperson das
Experiment ab. So kann man sagen: Je höher die vltzahl,
desto gehorsamer ist die Vp. Nebenbei bemerkt wurde das
Experiment in Deutschland, USA und Israel mit erschreckendem
Ergebnis durchgeführt: In allen Ländern wurde das
Experiment von 85% der Vp bis zum Schluß
durchgeführt. Dabei gab der Schüler bei den
höheren Voltzahlen (ca. ab 350 Volt) keine Schreie mehr
von sich. Nahezu alle Vp waren davon überzeugt, daß
sie tatsächlich einen Menschen gefoltert hatten.
Kriteriumsvalidität: Kriteriumsvalidität
ist ein spezieller Aspekt der Konstruktvalidität. Diese
liegt vor, wenn die Messungen mit einer anderen
konstruktvaliden Messung des Kriteriums hoch korrelieren. Wird
die Konstruktvalidität nur über die
Kriteriumsvalidität definiert, besteht die Gefahr eines
Zirkelschlusses (Test A ist valide, weil er mit Test B
korreliert, der mit Test C korreliert, der mit Test A
korreliert); betrachtet man es aber so, daß alle Tests
konstruktkonform miteinander korrelieren (nomologisches
Netzwerk), dann ist dies ein stärkerer
Validitätsnachweis als eine paarweise Validierung von
Messungen. Soll ein Verfahren Depression messen, wendet man ihn
bei Personen an, die nachweislich eine Depression haben. Dann
wird geprüft, wie genau diese Testergebnisse mit
anderweitig ermittelten Bewertungen übereinstimmen (z.B.
mit der Einschätzung durch Psychotherapeuten).
Üblicherweise werden vier Formen der
Kriteriumsvalidität unterschieden:
Konvergente Validität meint, daß bei
mehreren alternativen Kriterien, von denen aber nur einige
eine hohe Konstruktvalidität haben, die Messung hoch
mit den Kriterien hoher Validität korreliert.
Diskriminante Validität meint, daß bei
mehreren alternativen Kriterien, von denen nur bestimmte
eine hohe Konstruktvalidität haben, die Messung niedrig
mit den Kriterien niedriger Validität korreliert und
hoch mit denen hoher Validität.
Konkurrente Validität meint, daß
Messung und Kriterium gleichzeitig erhoben werden.
Vorhersage-, prognostische, prädiktive
Validität meint, daß das Kriterium nach der
Messung erhoben wird, d.h. die Messung soll das Kriterium
vorhersagen. Wenn ein Flugschüler im Flugsimulator
sicher ein Flugzeug beherrscht, wird er dies in vielen
Fällen dann auch in der Realität können.
Inhaltsvalidität: Inhaltsvalidität ist
eigentlich ein spezieller Aspekt der Konstruktvalidität.
Sie liegt vor, wenn die durch Messungen erfaßten Inhalte
denjenigen Inhalt darstellen, der gemessen werden soll. Die
Inhaltsvalidität läßt sich formal nur
prüfen, wenn die Gesamtheit der zu messenden Inhalte
bekannt ist, was aber eher selten der Fall ist. Diese Form der
Validitätsbestimmung wird meist bei einfachen Tests
verwendet, etwa bei einem Wissens- oder Rechtschreibtest.
Inhaltsvalidität wird dann angenommen, wenn die einzelnen
Testaufgaben nach Ansicht von Experten eine gute Stichprobe
aller möglichen Aufgaben bilden. Ein Rechentest für
das 3. Schuljahr ist valide, wenn die Aufgaben etwa den
Unterrichtsstoff dieses Jahrgangs repräsentieren.
Ökologische Validität: Eine psychologische
Ergebungs- oder Beobachtungsmethode ist in dem Maße
für eine Person (Personengruppe) ökologisch valide,
in dem die mit dieser Methode eingeführten
Stimulus-Bedingungen eine unverzerrte Stichprobe der in der
Grundgesamtheit aller Lebensbedingungen dieser Person
(Personengruppe) repräsentierten Stimulus -Bedingungen
sind. Die Methode ist für eine Person (Personengruppe)
ökologisch invalide, wenn die eingeführten Stimulus
-Bedingungen im betreffenden Biotop nicht oder nur selten in
dieser Kombination repräsentiert sind (Pawlik, 1976, S.
60).
Es wird gerne betont, die Validität gebe es nicht, es
gebe vielmehr recht verschiedene Arten von
Validitätsbestimmungen. Gemeinsam ist ihnen, dass
Validitäts- oder Gültigkeitsmaße den Grad der
Genauigkeit angeben, mit der ein Test misst, was er zu messen
vorgibt. Ein sogenannter Intelligenztest trägt seinen Namen nur
dann zu Recht bzw. ist nur dann valide, wenn er Intelligenzleistungen
und nicht in erster Linie das "Sitzfleisch" misst. Ein
Intelligenztest für Schulanfänger wird kaum valide sein,
wenn er Kindern ohne ausreichende Pause 3 oder 4 Stunden lang
konzentrierte Arbeit abverlangt.
Bei allen psychologischen Verfahren muss klar sein, dass der
Begriff "Intelligenz" ebenso wie "Aggressivität",
"Angstlichkeit" oder "Ichstärke"nur ein Konstrukt
bezeichnen, also Begriffe, die mehr oder weniger theoretisch
sinnvoll sind. Das damit Bezeichnete kann in der Regel nicht
direkt beobachtet werden, sondern nur aus Indikatoren erschlossen
werden. Konstrukte gelten im Rahmen der psychologischen
Theoriebildung als nützliche Annahmen, die immer wieder
bestätigt werden müssen. Im Grunde ist es das alte Problem
der "Wahrheit" von Aussagen, das sich im
Validitätskonzept versteckt: Sind Behauptungen zutreffend?
Verdient z. B. ein Test, der als "Intelligenztest" verkauft wird,
diesen Namen? Als kleines Beispiel mag der "Lerntypentest"
des Autors dienen, der versucht, ein eher fragwürdiges Konstrukt
zu hinterfragen bzw. dessen Bedeutung zu relativieren.
Psychologisch bedeutsamer sind die "empirischen Validitäten",
d. h. die Übereinstimmungs- und Vorhersagevalidität.
Die erste prüft man, indem man die Testergebnisse mit
Kriteriumswerten korreliert. So kann man die Validität eines
Rechentests für das 3. Schuljahr durch die Korrelation der
Testergebnisse mit den Lehrerurteilen (als Außenkriterium)
ausdrücken, das allerdings seinerseits fragwürdig sein
kann. Die Vorhersagevalidität zu bestimmen liegt z.B. bei der
Konstruktion eines Schulreifetests nahe: Nach der Testerhebung sollte
man daher mindestens bis zum Ende des ersten Schuljahres warten, um
dann die Korrelation zwischen Testresultaten und Schulleistungen zu
beurteilen. Valide ist der Test, wenn diese Korrelation hoch
ausfällt. Günstig für die Bestimmung der
prognostischen Validität sind auch Zeitreihenuntersuchungen, in
denen die Leistungen einen Kohorte über einen längeren
Zeitraum verfolgt werden.
Diese Beispiele machen deutlich, daß die
Validitätsbestimmung mit Hilfe eines sog.
Außenkriteriums manchmal auch fragwürdig ist, denn
solche Außenkriterien wie das Lehrerurteil sind selbst
biasbehaftet, d.h., selber nicht valide. Vor allem bei
Intelligenztests wird zur Validierung eines neuen Tests meist ein
bereits bewährter Test als Kriterium herangezogen.
Grundsätzliche Zweifel sind daher an allen Verfahren zur
Validitätsbestimmung angebracht. Eine befriedigende Reduzierung
einer möglichen Expertenwillkür ist nur durch
wechselseitige konstruktive Kritik möglich.
Entstanden unter Verwendung von:
http://www.hilbrands.de/studium/forschungsmethodik/006.htm
(00-12-13)