Was ist ein psychologischer Test? – PRAXIS DR. CHRISTIAN RUPP

Psychologische Tests – Teil 2: Diesen Tests können Sie trauen

Nachdem ich in Teil 1 beschrieben habe, welche Merkmale einen „echten“ psychologischen Test ausmachen, stelle ich in diesem Teil verschiedene Gruppen „gängiger“ psychologischer Testverfahren inklusive einiger prototypischer Vertreter vor.

Intelligenztests

Intelligenztests sind das Flaggschiff der Psychologie. Kein Thema wurde in der modernen Psychologie der letzten 100 Jahre intensiver beforscht als Intelligenz und ihre Messung, sodass heute eine Vielzahl sehr guter und auch präzise messender Intelligenztests vorliegen, die entweder Aussagen über die generelle Intelligenz liefern oder aber über spezifische Intelligenzfacetten (z.B. logisches Schlussfolgern und mentales Rotieren). Da ich das Thema „Intelligenz“ noch ausführlich behandeln werde, wobei ich auch einige Intelligenztests vorstellen werde, belasse ich es an dieser Stelle dabei.

Persönlichkeitstests

Seriöse Persönlichkeitstests basieren auf Mehr-Faktoren-Modellen der Persönlichkeit, die durch das statistische Verfahren der Faktorenanalyse (siehe Exkurs unten) entstanden sind. Dasjenige Modell, über das in der Wissenschaft am meisten Einigkeit besteht, ist das Modell der „Big Five“. Es basiert auf etlichen faktorenanalytischen Studien und besteht aus fünf Kerneigenschaften, anhand derer Menschen sich hauptsächlich unterscheiden:

Extraversion

Ja, es heißt nicht Extroversion – das Gegenteil ist aber die Introversion; Beispielaussagen für Extraversion wäre z.B. „Ich bin gerne unter Menschen“ und „Ich bringe Leben in eine Gesprächsrunde“.

Neurotizismus

Dies bedeutet emotionale Stabilität; ein sehr neurotischer Mensch ist eher emotional instabil.

Verträglichkeit

Kommt jemand gut mit anderen klar oder zieht er eher Konflikte an?

Offenheit für Erfahrungen

Ist jemand offen für Neues oder bleibt er lieber bei Altbekanntem?

Gewissenhaftigkeit

Habe ich im unten stehenden Exkurs erklärt.

Alle anderen Eigenschaften lassen sich gemäß diesem Modell den „Big Five“ unterordnen. Gute Persönlichkeitstests (Achtung: Die Namen von psychologischen Persönlichkeitstests sind fast immer Abkürzungen!) sind z.B. der „NEO-PI-R“, der „NEO-FFI“, der „TIPI“, der „BFI“ und der „FPI-R“. Der „BIP“ erfasst, weil für die berufliche Bewerberauswahl entwickelt, berufsrelevante Persönlichkeitseigenschaften, und der „PSSI“ erfasst das Kontinuum zwischen Persönlichkeitseigenschaft und Persönlichkeitsstörung.

Eine Sonderform der Persönlichkeitstests stellen die so genannten „Integrity“-Tests dar (z.B. der „IBES“). Diese erfassen, wie integer (= ehrlich, aufrichtig) ein Mensch ist – und tatsächlich können sie sehr gut unlauteres Verhalten am Arbeitsplatz (z.B. Diebstahl) vorhersagen, was verblüffend ist.

Persönlichkeitstests liegen meist in Fragebogenform vor, d.h. die Teilnehmer kreuzen an, wie sehr sie entsprechenden Aussagen (siehe oben) zustimmen. Es gibt aber auch Fremdbeurteilungsverfahren, d.h. Persönlichkeitstests, bei denen das Verhalten von Psychologen beobachtet und Rückschlüsse auf die Persönlichkeit desjenigen gezogen werden (was größte Sorgfalt und Vorsicht erfordert). Ebenso gibt es so genannte objektive Persönlichkeitstests wie den „OLMT“, die die Persönlichkeit indirekt erfassen, d.h. ohne dass der Teilnehmer weiß, dass es um seine Persönlichkeit geht. Beim OLMT wird z.B. die Leistungsmotivation des Probanden erfasst, in dem man ihn eine recht simple, aber auf Dauer anstrengende Aufgabe an einem Computerbildschirm lösen lässt, die inhaltlich nichts dem zu tun hat, was erfasst wird: Je länger der Proband „durchhält“, desto höher laut diesem Test die Leistungsmotivation. Auch hierbei wird also aus dem Verhalten auf die Persönlichkeit geschlossen. Fremdbeurteilungsverfahren und objektive Persönlichkeitstests bieten den Vorteil, dass sie nicht willentlich durch die Teilnehmer verfälscht werden können, was bei den Fragebögen natürlich möglich ist. Ihre Validität ist meist vorhanden, stellt jedoch teilweise ein Problem dar.

Auch unter diese Rubrik einzuordnen sind übrigens Tests zur Erfassung der Motive eines Menschen (wie der TAT, in der Reihe zu Motivation vorgestellt) sowie dessen Einstellungen gegenüber bestimmten Themen, Phänomenen und Menschengruppen (z.B. Migranten, Homosexualität, Esoterik, Übernatürliches…). Bei Letzterem wäre ich allerdings vorsichtig, den Begriff „Test“ zu verwenden und würde eher für die Bezeichnung „spezifischer Fragebogen“ plädieren, weil es sich ja immer um ein bestimmtes Thema dreht. Es gibt aber auch die Möglichkeit, Einstellungen, ebenso wie Motive, indirekt zu erfassen, d.h. ohne dass der Teilnehmer das Ergebnis verfälschen kann und ohne dass er weiß, dass es um seine Einstellungen geht. Ein bekanntes und recht valides Verfahren hierfür ist z.B. der IAT, der implizite Assoziationstest.

Die Validität von Persönlichkeitstests wird z.B. durch den Zusammenhang mit anderen Persönlichkeitstests oder mit bestimmten Verhaltensweisen, die zu der jeweiligen Eigenschaft passen, gesichert.

Exkurs „Faktorenanalyse“

Grob gesagt passiert bei der Faktorenanalyse Folgendes: Nachdem Probanden einen Fragebogen mit sehr vielen Aussagen (z.B. „Ich mag es, unter Leuten zu sein“ / „Ich erledige alle meine Arbeiten gründlich“) beantwortet haben, indem sie mit Hilfe einer Skala (die z.B. von 1-7 reicht) angaben, wie sehr diese Aussage auf sie zutrifft, werden statistische Analysen angewendet, die ausspüren, welche Aussagen des Fragebogens stark zusammenhängen (korrelieren). Zwei Aussagen sind dann korreliert, wenn Personen dazu tendieren, sie gleich oder ähnlich zu beantworten. Meistens hängen mehr als zwei Fragen zusammen, und diese werden dann zu einem „Faktor“ zusammengefasst. So gehören z.B. die Aussagen „Ich erledige alle meine Arbeiten gründlich“ und „Ich hasse es, wenn Unordnung entsteht“ zum Faktor „Gewissenhaftigkeit“ – einem der fünf großen Persönlichkeitsfaktoren, in dem sich Personen unterscheiden. Die Faktorenanalyse ist aber auch die Basis der Intelligenzforschung: Hier bearbeiten Probanden verschiedenste Aufgaben anstelle von Aussagen, und es werden diejenigen Aufgaben zusammengefasst, die häufig zusammen gelöst werden. Da Menschen z.B. sehr häufig sowohl in Wortschatz- als auch in Analogieaufgaben gute Leistungen bringen, werden beide Aufgabenarten, vereinfacht gesagt, oft zu dem Faktor „sprachliche Intelligenz“ zusammengefasst. Dass Leute, die gut in Wortschatzaufgaben sind, auch gute Leistungen in Rechenaufgaben bringen, ist derweil weniger häufig der Fall – sodass man hier von zwei verschiedenen Faktoren (z.B. „sprachliche Intelligenz“ vs. „mathematische Intelligenz“) ausgeht. Mehr dazu in den Artikeln zum Thema „Intelligenz“.

Tests zur Erfassung von Aufmerksamkeit, Konzentration & Gedächtnis

Hierunter fallen sämtliche Tests, die kognitive Funktionen wie Wahrnehmung, Aufmerksamkeit, Gedächtnis und Konzentration erfassen. Der „VLMT“ z.B. erfasst verbale Lern- und Merkfähigkeiten und ist in der Alzheimer – und Demenzdiagnostik wichtig. Die „TAP“ ist eine Testbatterie, mit der die selektive Aufmerksamkeit, das Arbeitsgedächtnis und die Konzentrationsleistung überprüft werden. Auch der „d2“ und der „FAIR“ erfassen die Konzentrationsleistung, in dem sie den Teilnehmer vor die Aufgabe stellen, eine vergleichsweise einfache Aufgabe, die aber viel Konzentration erfordert, unter Zeitdruck zu bearbeiten, ohne Fehler zu machen. Ebenso gibt es Tests, die die Belastbarkeit einer Person unter Stress und die motorischen Fähigkeiten erfassen. In diese Gruppe von Tests fallen all die Tests, die Teil der Aufnahmeprüfung in Berufen sind, in denen mangelnde Konzentration etc. fatal sein können – bei Piloten, Fluglotsen, Zugführer, LKW-Fahrer, etc. Auch bei der MPU, der medizinisch-psychologischen Untersuchung, die z.B. auf Verkehrsteilnehmer wartet, die zu viele Punkte in Flensburg haben, kommen viele von diesen Tests zum Einsatz.

Fragebögen zu klinischen Symptomen

Auch hier sollte man mit dem Begriff „Test“ vorsichtig sein und die Bezeichnung „Fragebogen“ wählen. Klinische Fragebögen erfassen Symptome psychischer Störungen und liegen entweder als Selbstbeurteilungsvariante (der Patient kreuzt selbst an) oder als Fremdbeurteilungsvariante (ein_e Psychologe_in beurteilt das Verhalten und die Schilderungen des Teilnehmers und kreuzt an) vor. Es gibt Fragebögen, die Symptome mehrerer Störungsbilder gleichzeitig abfragen (z.B. die „SCL-90-R“) und Fragebögen, die Symptome nur jeweils einer Störung erfassen – hier ein paar Beispiele von qualitativ hochwertigen diagnostischen Fragebögen:

Depression

Selbstbeurteilung: „BDI“, „ADS“ (hat nichts mit AD(H)S zu tun, sondern steht für „allgemeine Depressionsskala“)
Fremdbeurteilung: „MADRS“, „HAMD“

Angststörungen/Ängstlichkeit

Selbstbeurteilung: „STAI“ und „ACQ“
Fremdbeurteilung: „HAMA“

Zwangsstörungen

Selbstbeurteilung: „HZI“

AD(H)S bei Erwachsenen

Selbstbeurteilung: „WURS-K“ (für Symptome in der Kindheit), „ADHS-SB“ (für Symptome im Erwachsenenalter)
Für AD(H)S bei Kindern stehen zahlreiche Fremdbeurteilungsverfahren vor, die auch von Eltern und Lehrern ausgefüllt werden können.

und viele mehr…

Der wichtige Grundsatz bei den klinischen Fragebögen lautet: Sie sind als zusätzliche Quelle von diagnostischen Informationen sinnvoll, aber eine Störungsdiagnose sollte niemals alleine auf dieser Basis vergeben werden! Deshalb sollte hier auch nicht von Tests die Rede sein – denn die liefern sehr viel eindeutigere und vor allem unumstößliche Ergebnisse.

Im dritten Teil stelle ich dann abschließend eine Reihe von Tests vor, die die in Teil 1 dargestellten Gütekriterien von psychologischen Tests kaum oder gar nicht erfüllen. Sie glauben gar nicht, auf wie viele so genannte „Tests“ dies zutrifft…

Psychologische Tests – Teil 1: Woran erkennt man die echten unter ihnen?

Da auch hierüber in der Gesellschaft sehr weit verbreitete falsche Annahmen zu finden sind, fand ich es sehr wichtig, einmal darzustellen, was eigentlich einen „richtigen“ psychologischen Test ausmacht . Deshalb geht es in diesem und in den zwei folgenden Artikeln darum, was psychologische Tests überhaupt sind und was Beispiele für gute und weniger gute Vertreter sind.

Ich möchte fast wetten, dass Sie, liebe_r Leser_in, schon einmal in Ihrem Leben an einem psychologischen Test oder einem, der behauptete, einer zu sein, teilgenommen haben. Tatsächlich trennt sich hier aber die Spreu vom Weizen – denn es gibt seriöse, „echte“ psychologische Tests, die gültige Aussagen über eine Person zulassen, und „falsche“, die genau dies nicht erlauben. Ziel aller psychologischer Tests ist es, ein bestimmtes, „in der Person liegendes“ und daher von außen nicht direkt beobachtbares Merkmal (Persönlichkeit, Intelligenz, Gedanken…) mehr oder weniger indirekt zu messen. Doch was unterscheidet nun die „echten“ von den „falschen“ Tests?

Merkmale von echten psychologischen Tests

Quantitative Daten

Ein guter psychologischer Test liefert, wenn auch auf Umwegen, immer Zahlen als Daten. Das bedeutet, selbst wenn die Antworten des Teilnehmers nicht direkt als Zahlen vorliegen (wie es z.B. in einem Fragebogen mit einer 7-stufigen Skala der Fall ist), muss der Test eine Möglichkeit bieten, wie der Testleiter den Antworten oder dem Verhalten eines Probanden Zahlen zuweisen (= das Verhalten quantifizieren) kann. Dieses System muss standardisiert sein (siehe „Objektivität“), und es ist die Grundlage für das Kriterium der Normierung.

Objektivität

Dieses Merkmal bedeutet, dass der Test, unabhängig von der durchführenden Person, immer gleich angewendet und ausgewertet und das Ergebnis immer gleich interpretiert wird. Durchführung, Auswertung und Interpretation sind fest vorgeschrieben. Das Ergebnis unterliegt somit keinen subjektiven Eindrücken, Deutungen oder Manipulationen – der gesamte Testablauf ist standardisiert.

Reliabilität

Dieser Begriff bedeutet Zuverlässigkeit. Im Klartext ist dieses Kriterium erfüllt, wenn der Test bei wiederholter Durchführung dasselbe oder annähernd dasselbe Ergebnis liefert. Wenn jedoch das gemessene Merkmal von Natur aus schwankt (z.B. Einstellungen), kann es passieren, dass dieses Kriterium keinen Sinn macht. Dann kann man höchstens schauen, ob das Merkmal innerhalb sehr kurzer Zeiträume stabil bleibt. Die Reliabiliät wird durch einen Wert zwischen 0 und 1 beschrieben, wobei 1 für maximale Zuverlässigkeit steht (der Testwert stimmt bei beiden Messungen exakt überein). In der Realität sind Werte zwischen 0,7 und 0,9 normal und ausreichend für die Praxis. Von diesem Wert hängt die Größe des so genannten „Konfidenzintervalls“ ab. Dieses gibt, da ein psychologischer Test nie so präzise misst wie beispielsweise eine Waage, den Bereich an, in dem der tatsächliche Testwert mit 95%iger Wahrscheinlichkeit liegt. So könnte ein Intelligenztest z.B. einen IQ-Wert von 104 liefern, und das Konfidenzintervall könnte bei einer Reliabilität von 0,9 von 100 bis 108 reichen. Hierzwischen liegt dann sehr wahrscheinlich der „wahre“ Wert der Person.

Streng genommen ist mit Reliabilität übrigens eigentlich nicht gemeint, dass zweimal hintereinander derselbe Wert rauskommt, denn auch wenn alle untersuchten Personen bei der zweiten Messung z.B. 5 Punkte dazugewonnen haben, ergibt das eine Reliabilität von 1. Es geht genau genommen nur um die Einhaltung der Rangfolge der Personen: Wird diese bei beiden Messungen eingehalten, ist der Test reliabel. Aber wie gesagt: Für das Alltagsverständnis reicht die obige Definition.

Normierung

Normierung bedeutet, dass der erreichte Testwert einer Person nie losgelöst betrachtet wird, sondern immer mit einer repräsentativen Normierungsstichprobe verglichen wird. Diese besteht aus Personen, die der getesteten Person bezüglich Alter und Geschlecht ähnlich sind. Dazu berechnet man den Abstand zwischen dem Testwert der Person und dem Mittelwert der Normierungsstichprobe. Ein Beispiel: Der neunjährige Theo erreicht in einem Intelligenztest eine Punktzahl von 144, insgesamt sind in dem Test 220 Punkt zu erreichen. Achtung – das ist der Rohwert, nicht der IQ-Wert. Der ergibt sich erst durch weitere Berechnungen, bei der Theos Punktzahl, die durchschnittliche Punktzahl in der Normierungsstichprobe der neunjährigen Jungen und die durchschnittliche Abweichung von dieser Durchschnittspunktzahl (die Standardabweichung) mit einbezogen werden. So erhält man IQ-Werte, die so standardisiert sind, dass der Mittelwert 100 beträgt und die Standardabweichung 15. Weil bei diesen Umrechnungsprozessen dividiert wird, spricht man vom Intelligenzquotienten. Da IQ-Werte daher keine festen, sondern relative Werte darstellen, ist unbedingt zu beachten, mit welcher Normierungsstichprobe jemand verglichen wird: So kann ein Gymnasiast beim Vergleich mit einer Stichprobe aus der breiten Normalbevölkerung einen IQ von 130 aufweisen (wäre demnach also „hochbegabt“), im Vergleich mit anderen Gymnasiasten wäre er hingegen nicht so weit über dem Mittel und hätte einen IQ von 115.

Validität

Dieses vierte Kriterium bedeutet „Gültigkeit“. Ein Test besitzt Validität bzw. ist valide, wenn er tatsächlich misst, was er zu messen vorgibt. Wenn es dabei um ja/nein-Entscheidungen geht (z.B. bei der Frage, ob jemand lügt oder nicht), kann man die Validität damit bestimmen, wie oft der Test eine korrekte Aussage liefert (d.h. jemand lügt, und der Test sagt auch, dass die Person lügt – oder die Person lügt nicht, und der Test sagt auch, dass die Person nicht lügt), und wie oft er daneben liegt (Die Person lügt nicht, aber der Test besagt, dass sie lügt – und andersrum).Wenn der Test jedoch ein Merkmal messen soll, welches nicht nur zwei Kategorien hat (z.B. Intelligenz), dann betrachtet man, wie der Testwert mit anderen Merkmalen zusammenhängt. Hierzu betrachtet man die Korrelation (abgekürzt durch den Buchstaben „r“), das heißt den linearen Zusammenhang von Testwert und einem anderen Wert. Auch die Korrelation variiert zwischen 0 und 1, während 1 für einen perfekten Zusammenhang zwischen zwei Merkmalen steht.

Das unten stehende Foto zeigt als Beispiel die (hypothetische, nicht realitätsgetreue) Korrelation zwischen der Abiturdurchschnittsnote und dem Ergebnis in einem Intelligenztest. Diese beträgt hier 0,5, was in Bezug auf Validität ein sehr hoher Wert ist. Wenn man die Validität eines Tests bestimmt, ist es wichtig, dass der Testwert einen eindeutigen Zusammenhang mit verwandten Merkmalen aufweist (bei Intelligenz wären dies z.B. Schulleistung oder die Leistung in anderen Intelligenztests). Dieser Zusammenhang muss und kann aber gar nicht perfekt ( = 1) sein, weil sämtliche Merkmale (wie Schulleistung) noch durch viele andere Faktoren bestimmt werden. Die Validität eines Tests bestimmt man dabei nie nur durch die Korrelation mit einem anderen Merkmal, sondern immer mit mehreren. Validitäten von 0,3 sind dabei schon als zufriedenstellend, welche über 0,5 bereits als sehr hoch einzustufen.

Hier habe ich einmal aufgemalt, was man sich unter einer Korrelation vorzustellen hat. Die grünen Kreuze stehen alle für jeweils eine Person, von der sowohl das Ergebnis aus einem Intelligenztest (in IQ-Werten, auf der x-Achse) und die Abiturdurchschnittsnote (auf der y-Achse) vorliegen. Diese „Wolke“ von Datenpunkten (bzw. –kreuzen) zeigt einen klaren Trend von links unten nach rechts oben, der durch die rote Linie verdeutlicht wird. Das heißt, im Mittel gehen höhere IQ-Werte mit besseren Noten einher, aber natürlich gibt es auch Ausnahmen. Bei einer Korrelation von 1 lägen alle Datenpunkte auf der roten Linie – das würde bedeuten, dass Abinote und Intelligenz in einem perfekten Zusammenhang zueinander stehen und dass das eine linear (d.h. in Form einer Geraden wie der roten Linie) mit dem anderen ansteigt. Bei einem Zusammenhang von r = 0 wäre der gesamte Raum innerhalb des Graphen hingegen gleichmäßig mit Kreuzchen ausgefüllt, es wäre kein Trend in irgendeine Richtung und somit kein Zusammenhang der beiden Merkmale zu erkennen.
Auch die Reliabilität ist übrigens ein Korrelationswert. Hier würde man auf der x-Achse die Testwerte aus der ersten Durchführung abtragen und auf der y-Achse die der zweiten Durchführung. Hierbei würden die grünen Kreuzchen viel näher an der roten Linie liegen als hier im Foto, weil der Zusammenhang viel größer ist (meistens mindestens r = 0,7).

Fiktive Korrelation zwischen Intelligenzquotient und Abiturnote

Die Validität ist dasjenige Kriterium, das hauptsächlich darüber entscheidet, ob es sich um einen „echten“ psychologischen Test handelt oder nicht. Im zweiten und dritten Teil werde ich ein paar Beispiele für valide und nicht valide Tests geben.