Validität

Intelligenz – Teil 4: Was messen IQ-Tests und worin besteht ihre Berechtigung?

Nachdem es in Teil 3 darum ging, wie sich der so genannte „IQ“ berechnet und wie er zu interpretieren ist, widmet dieser Artikel sich der Frage: Wie lässt sich Intelligenz messen? Und messen Intelligenztests tatsächlich Intelligenz?

Die verschiedenen Arten von Intelligenztests lassen sich ganz grob in zwei Gruppen einteilen. Anhand ihrer Verbreitung und Etabliertheit habe ich diese zwei Kategorien einmal „untypisch“ und „typisch“ getauft.

„Untypische“ Vertreter

In diese Kategorie fallen zu allererst einmal die so genannten elementaren kognitiven Aufgaben (kurz EKAs). Hierbei handelt es sich um eine Reihe relativ einfacher Aufgaben, z.B. die Identifikation von präsentierten Reizen (Kreis oder Quadrat?), die Unterscheidung von Reizen (Welcher der zwei Töne ist höher?) oder die Erinnerungsleistung in Kurzzeitgedächtnisaufgaben (z.B. maximale Zahl von Zahlen, die jemand, unmittelbar nachdem er sie gehört hat, in derselben Reihenfolge wiedergeben kann). Die Variablen, die hier als Maß für Intelligenz herangezogen werden, sind unter anderem die Reaktionszeit, die so genannte inspection time (Zeit, die jemand benötigt, um z.B. zu sagen, welche von zwei Linien länger ist) oder aber auch mit dem EEG gemessene ereigniskorrelierte Potenziale, wobei die Dauer bis zum Auftreten des Pozentials im EEG (die so genannte Latenz) als Maß für die Verarbeitungsgeschwindigkeit herangezogen wird, die wiederum Intelligenz widerspiegeln soll. Zur Validität der EKAs (also der Frage, in wiefern diese tatsächlich Intelligenz messen), liegen divergierende Befunde vor. Untersucht wurde diese Fragestellung, indem der lineare Zusammenhang (die Korrelation) zwischen der Leistung in EKAs und der Leistung in „typischen“ Intelligenztests berechnet wurde. Diese Korrelation allerdings schwankt in den verschiedenen Studien zwischen 0,35 und 0,70 – mit anderen Worten: Der Zusammenhang ist nicht bombig, und es ist wenig naheliegend, die Leistung in EKAs als alleinigen Indikator für Intelligenz zu betrachten. Ähnliches gilt für die Gehirngröße (gemessen z.B. per MRT bei lebenden oder aber direkt am Objekt bei toten Menschen), die laut einer Metaanalyse von McDaniel (2005) eine Korrelation von 0,33 mit der Leistung in typischen Intelligenztests aufweist. Dass hier kein so besonders großer Zusammenhang besteht, ist wenig verwunderlich, wenn man bedenkt, dass die Art der synaptischen Vernetzung in unserem Gehirn sehr viel wichtiger für die reibungslose Verarbeitung von Informationen ist als dessen einfaches Volumen.

Zweitens wären da eine Reihe von Tests, die offenkundig „typischen“ Vertretern ähneln, sich aber dadurch von diesen unterscheiden, dass sie den Generalfaktor g ablehnen, d.h. nicht von einem, allen Facetten übergeordneten allgemeinen Intelligenzfaktor ausgehen, sondern von mehreren voneinander unabhängigen Faktoren. In der Tat stellen die von diesen Tests postulierten Faktoren meist elementare kognitive Funktionen (ähnlich den EKAs) dar – und keine Intelligenzkomponenten, wie in den in Teil 2 beschriebenen Modellen aufgeführt. In diese Kategorie fallen z.B. das Cognitive Assessment System (CAS) und die Kaufman-Tests (z.B. das „K-ABC“). Während das CAS u.a. die Faktoren Planung (Strategien zur Problemlösung entwickeln) und Simultanität (getrennte Objekte zu etwas Ganzem integrieren) erfasst, unterscheidet das K-ABC zwischen erworbenen Fertigkeiten (Rechnen und Schreiben), simultaner Verarbeitung (Matrizen-Aufgaben der Sorte „Welches Bild ergänzt das Muster?“) und sequenzieller Verarbeitung (z.B. Zahlen nachsprechen). Wichtig beim K-ABC: Nur diese letzten zwei Faktoren sollen die kognitive Leistungsfähigkeit widerspiegeln; erworbene Fähigkeiten werden isoliert hiervon betrachtet.

„Typische“ Vertreter

Zu den typischen Vertretern gehören alle psychometrischen Tests, d.h. solche, die in der Regel auf einem bestimmten Intelligenzmodell (siehe Teil 2) basieren, eine Reihe verschiedener Aufgabentypen beinhalten, die normiert sind (damit die Leistung der getesten Person mit der von hinsichtlich Alter und Geschlecht ähnlichen Personen verglichen werden kann) und (das ist zentral) deren Gütekriterien (Objektivität, Reliabilität, Validität) überprüft wurden und als gesichert gelten.

Die meisten dieser Tests basieren auf Modellen, die einen g-Faktor annehmen, und ermöglichen daher auch die Berechnung eines allgemeinen Intelligenzquotienten. Ein Beispiel hierfür sind die Wechsler-Intelligenztests, z.B. der WIE (Wechsler-Intelligenztest für Erwachsene) oder der HAWIK-IV (Hamburg-Wechsler-Intelligenztest für Kinder, 4. Auflage). In den Wechsler-Tests gibt es u.a. die typischen Aufgabenbereiche Allgemeines Wissen, Finden von Gemeinsamkeiten, Matrizen ergänzen, Mosaike legen, Zahlen nachsprechen (vorwärts und rückwärts) und Kopfrechnen. Während die Wechsler-Tests sowohl die Berechnung der allgemeinen Intelligenz als auch verschiedener Unterfacetten ermöglichen, erlauben die so genannten Raven-Tests, die ausschließlich aus Matrizenaufgaben bestehen, nur die Berechnung eines allgemeinen IQs. Der Intelligenzstruktur-Tests (IST-2000-R), der auf dem Modell von Thurstone basiert, ermöglicht hingegen nur die Berechnung von IQ-Werten für die Bereiche schlussfolgerndes Denken (verbal, figural und numerisch) und Merkfähigkeit (verbal und figural). Zusätzlich gibt es einen Wissenstest, der aber nicht obligatorisch ist und am ehesten kristalline Intelligenz widerspiegelt.

Wozu das ganze? Der Sinn der Intelligenzmessung.

Nun kann man sich fragen, was es einem bringt, die Intelligenz einen Menschen (bzw. das, was diese ganzen Tests vorgeben, zu messen) zu erfassen. Die selbstwertregulierende Funktion liegt auf der Hand (es ist natürlich schön, von sich sagen zu können, dass man intelligenter als 99% der restlichen Menschheit ist), aber das ist zum Glück nicht alles.

Diagnostik von Intelligenzminderung & Hochbegabung

In der Tat sind Intelligenztests ein extrem wichtiges diagnostisches Instrument, das in vielen Bereichen zum Einsatz kommt. Im Bereich der pädagogischen Psychologie sind da z.B. die Diagnostik von Teilleistungsstörungen wie Lesestörungen, Rechtschreibstörungen und Dyskalkulie (Rechenstörung) zu nennen, zu deren Diagnose nämlich die Leistung im jeweils beeinträchtigten Bereich mindestens zwei Standardabweichungen (also deutlich) unterhalb der allgemeinen Intelligenz liegen müssen (um auszuschließen, dass es sich um eine generelle Intelligenzminderung oder gar eine geistige Behinderung handelt). Aber auch am anderen Ende der Skala ergibt sich ein wichtiges Anwendungsfeld: die Hochbegabtendiagnostik. Die ist deshalb so wichtig, weil es bei solchen Kindern von großer Bedeutung ist, diese hohe Intelligenz zu fördern, um Unterforderungserleben zu verhindern, das sonst leicht zu Problemen führen kann (z.B. weil das Kind den Unterricht stört oder sich zurückzieht). Vielleicht denken Sie hierbei auch gleichzeitig an die Diagnose einer ADHS. Das ist völlig richtig, denn auch zu dieser Diagnose muss eine Hochbegabung (genauso wie eine geistige Behinderung) als Ursache des unangepassten Verhaltens des Kindes ausgeschlossen werden.

Bewerberauswahl und Vorhersage des Schulerfolgs

Die weiteren Anwendungsgebiete von Intelligenztests ergeben sich aus der breitgefächerten prädiktiven Validität von Intelligenztests, d.h. aus der Tatsache, dass sich durch die Intelligenzleistung zu einem bestimmten Zeitpunkt bestimmte andere Variablen ziemlich gut vorhersagen lassen. So zeigte z.B. eine Metaanalyse von Schmidt und Hunter aus dem Jahr 1998, dass die allgemeine Intelligenz zu 0,54 mit dem späteren Arbeitserfolg bzw. der beruflichen Leistung korrelierte – damit sind Intelligenztests diejenige Methode mit der besten Vorhersagekraft für Berufserfolg. Trotz dieser Erkenntnis bevorzugen die meisten Unternehmen bei der Bewerberauswahl jedoch die sehr viel teureren Assessment-Center, wobei die Argumente hierfür denkbar schwach sind: Die Leistung in diesen korreliert nämlich im Mittel nur zu 0,37 mit späterem Berufserfolg. Ähnliche Korrelationen ergeben sich für die Beziehung von Intelligenz und Schulerfolg, gemessen z.B. durch die Schulnote. Diese schwanken nach Deary und Kollegen (2007) zwischen 0,43 im Fach Kunst und 0,77 im Fach Mathematik (und das ist in der Psychologie eine wirklich verdammt hohe Korrelation). Als Anwendungsfeld ergibt sich hierbei z.B. die Verteilung von Kindern auf verschiedene Schulformen, um eine jeweils optimale Förderung zu ermöglichen.

Von Haftstrafen bis Krebs

Die Vorhersagekraft der allgemeinen Intelligenz ist jedoch noch sehr viel größer. Eine große Zahl von Längsschnittstudien (d.h. solchen, die z.B. in der Kindheit den IQ messen und dann über die folgenden 20 Jahre weitere Variablen erfassen) wurde zu diesem Thema durchgeführt und führte zu verblüffenden Ergebnissen. So zeigte sich, dass mit steigendem IQ das Risiko für Arbeitslosigkeit und Armut abnimmt, ebenso wie für Scheidungen und Haftstrafen. Zudem ergab sich, dass sogar Krebsdiagnosen umso unwahrscheinlicher sind, je intelligenter der Mensch ist. Bei vielen dieser Zusammenhänge gibt es sehr wahrscheinlich so genannte vermittelnde Variablen, d.h. solche, die den Zusammenhang zwischen IQ und der jeweils anderen Variable erklären. So ist der Zusammenhang mit Arbeitslosigkeit und Armut sicherlich darauf zurückzuführen, dass ein höherer IQ höhere Bildungsabschlüsse ermöglicht, die dann wiederum das Risiko für Arbeitslosigkeit und Verarmung reduzieren. Ähnliches gilt für den Fall der Krebsdiagnosen: Menschen mit höherem IQ haben in der Regel einen gesünderen Lebensstil (trinken z.B. weniger Alkohol und rauchen nicht), was dann wiederum das Krebsrisiko niedrig hält.

Messen Intelligenztests wirklich Intelligenz?

Hier bewegen wir uns auf die Frage nach der Validität dieser Tests zu. Um die Frage aus der Überschrift zu beantworten, müssen wir jedoch verschiedene Aspekte des Konstrukts „Validität“ auseinander halten. Zunächst kann man davon ausgehen, dass bei Intelligenztests im Allgemeinen die Augenscheinvalidität (auch Inhaltsvalidität genannt) gegeben ist. Diese bezieht sich allerdings nur auf die einzelnen Untertests und meint nicht mehr, als dass die Aufgaben offenbar das erfassen, was sie vorgeben zu erfassen – z.B. dass man bei Rechenaufgaben rechnen muss, dass Wortschatzaufgaben die Größe des Wortschatzes erfassen, etc. Allerdings muss man zugeben, dass diese Inhaltsvalidität bei komplexeren Aufgaben wie Matrizenergänzungen durchaus nicht so einfach zu beurteilen ist, weil die Frage nach den Prozessen, die zur Lösung der Aufgaben bewältigt werden müssen, so groß ist, dass sie ein eigenes Forschungsfeld darstellt.

Wenn man jedoch den gesamten Test heranzieht und sich fragt, ob dieser das Konstrukt „Intelligenz“ misst, ist die Antwort schon weniger eindeutig. Dafür, dass zumindest die meisten Intelligenztests annähernd dasselbe messen, sprechen die ziemlich hohen Korrelationen zwischen den Ergebnissen derselben Person in verschiedenen Intelligenztests. Dies bezeichnet man auch als diagnostische Validität. Und dafür, dass mit diesen Tests offenbar etwas gemessen wird, das Auswirkungen auf extrem viele andere Lebensbereiche (Berufserfolg, Gesundheit, etc.) hat, liegen ebenfalls zahlreiche Belege vor (prädiktive Validität). Mit anderen Worten: Irgendetwas muss ganz offensichtlich dran sein an diesem Konstrukt.

Es gibt aber natürlich auch jede Menge Kritik an der gesamten Intelligenzmessung. An dieser Stelle sei noch einmal deutlich betont, dass es sich, wie in Teil 1 beschrieben, bei Intelligenz lediglich um ein Konstrukt handelt – und nicht um eine vom Himmel gefallene und unumstößlich definierte Begebenheit. So wird von Kritikern z.B. eingeworfen, dass klassische Intelligenztests viele Aspekte gar nicht berücksichtigen, z.B. sozio-emotionale Kompetenzen. Zudem wird häufig angemerkt, dass Intelligenz auch die Aneignung von Fertigkeiten und Wissen im kulturellen Kontext bedeutet – was die Tests allesamt nicht erfassen.

Letztendlich handelt es sich bei der Frage, was Intelligenztests messen, also um eine, die die Wissenschaft nie endgültig wird beantworten können, weil dies unmöglich ist. Man kann als Fazit allerdings zweierlei festhalten: Dass Intelligenztests das messen, was sie vorgeben zu messen, scheint auf Basis der Befunde zur Inhalts-, diagnostischen und prädiktiven Validität sehr wahrscheinlich – ebenso wie dass dieses Konstrukt, wie auch immer man es nennen mag, offenbar große Auswirkungen auf unser Leben hat. Ob diese Tests aber tatsächlich Intelligenz messen, lässt sich nicht beantworten, da es sich hierbei um ein höchst unterschiedlich definiertes Konstrukt handelt.

Bleibt der IQ immer gleich? Die Frage nach der Stabilität.

Auch diese Frage hat wiederum zwei Facetten. Die erste ist die Frage, ob Intelligenztests zuverlässig messen, d.h. reliabel sind. Im Wesentlichen ist hiermit die Frage verknüpft, wie genau Intelligenztests messen. Nun, ein psychometrischer Test misst nicht so genau wie eine Waage, das ist klar. Aber die meisten Intelligenztests haben Reliabilitäten von über 0,90, was ziemlich gut ist. Am geläufigsten ist hierbei die so genannte Retest-Reliabilität, d.h. die Frage nach der Übereinstimmung der Testergebnisse, wenn Personen denselben Test zweimal hintereinander bearbeiten. Hierbei muss das Zeitintervall natürlich groß genug sein, um auszuschließen, dass die Person die richtigen Lösungen bei der Bearbeitung lediglich erinnert. Der zeitliche Abstand darf aber auch nicht zu lang sein, da es sonst möglich ist, dass eine große Abweichung der Testwerte darauf zurückgeht, dass die tatsächliche Intelligenzleistung der Person sich verändert hat (was besonders bei Kindern der Fall ist, die einen schnellen Zuwachs verzeichnen).

Die zweite Frage ist die, ob die Intelligenzleistung selbst stabil ist. Hier bietet die Forschungslage erfreulicherweise einen relativ eindeutigen Befund: Obwohl IQ-Werte auch tagesformabhängig sind (logisch, da man sich nicht immer gleich gut konzentrieren kann), sind die Fluktuationen ziemlich gering, und Intelligenz erweist sich insgesamt als ziemlich stabile Eigenschaft. Stabil meint hierbei allerdings nicht, dass immer gleich viele Punkte im selben Test erreicht werden, sondern dass eine Person im Vergleich zur alters- und geschlechtsspezifischen Normstichprobe gleich gut bleibt. Als Beispiel: Natürlich wird ein zehnjähriges Kind im HAWIK mehr Punkte erzielen als mit sechs Jahren, aber es behält trotzdem denselben IQ, weil es bei den beiden Messungen mit unterschiedlichen Normstichproben verglichen wird. Verschiedene Untersuchungen zeigen sogar eine erstaunliche Stabilität des IQ über sehr lange Zeitspannen: So ergab sich in einer Studie von Deary und Kollegen (2000) eine beachtliche Korrelation von 0,77 zwischen den IQ-Werten einer Stichprobe, die zum ersten Mal 1932 und zum zweiten Mal 1995 an demselben Test teilgenommen hatte.

Interessant ist diesbezüglich übrigens der sehr unterschiedliche Verlauf von fluider und kristalliner Intelligenz über die Lebensspanne. Studien aus diesem Bereich zeigen, dass, während die kristalline Intelligenz (im Wesentliches also erworbenes Wissen) im Laufe des Lebens zunimmt bzw. stagniert, die fluide Intelligenz (logisches Denken etc.) abnimmt. Neuere Untersuchungen zeigen jedoch, dass der Rückgang der fluiden Intelligenz auf etwas anderes zurückzuführen ist – nämlich auf die mit dem Alter geringer werdende Erfahrung mit den Aufgabenformaten typischer Intelligenztests, die stark an die von Schulaufgaben angelehnt sind. Insgesamt kann man also sagen: Intelligenz ist ziemlich stabil, aber eben nicht perfekt stabil. Und das liegt maßgeblich daran, dass wir entgegen der weitläufigen Meinung nicht mit einem festgelegten IQ geboren werden – was Thema des fünften Teils der Intelligenz-Reihe sein wird.

Psychologische Tests – Teil 3: Von diesen „Tests“ sollten Sie lieber die Finger lassen

Nach den „echten“ psychologischen Tests folgen nun die „unechten“ – in dem Sinne, dass diese keine validen Aussagen über Sie als Person treffen können. Auch in diesem Teil habe ich die vielen verschiedenen Vertreter wieder zu möglichst übersichtlichen Kategorien zusammengefasst. Beginnen wir also.

„Tests“ aus Klatschzeitschriften

Wer kennt das nicht? Auf der Titelseite der „Woman“, „Tina“, „Frau im Spiegel“, und wie sie sonst noch alle heißen, locken Schlagzeilen wie „So finden Sie heraus, welcher Persönlichkeitstyp Sie sind!“ oder „Wie eifersüchtig sind Sie?“. Wie deutlich erkennbar ist, handelt es sich hierbei um vermeintliche „Tests“ aus dem Bereich der Persönlichkeitsdiagnostik. Aber auch „Intelligenztests“ werden von Zeit zu Zeit angeboten („Testen Sie, wie schlau sie sind!“ / „Wie hoch ist Ihr IQ?“).

Fallen Sie hierauf nicht herein. Diese Tests wurden zwar manchmal tatsächlich von Psychologen entwickelt und sind somit teilweise nicht völlig ohne Substanz, aber sämtliche Gütekriterien, die einen psychologischen Tests ausmachen, sind meistens nicht gegeben. Die objektive Anwendung ist nicht gewährleistet, die Normierung fehlt, die Reliabilität und die Validität sind nicht untersucht. Wie auch? Ein solcher Fragebogen muss in wenigen Tagen oder sogar Stunden entstehen – bis ein echter psychologischer Test veröffentlicht wird, muss er viele aufwendige Entwicklungsstadien durchlaufen – Studien zur Reliabilität, Validität und Normierung.
Manchmal sind Tests in solchen Zeitschriften aber auch „echten“ Tests entnommen – das muss aber dann vermerkt werden. Weil dabei aber Lizenzgebühren fällig werden, ist es oft billiger, sich „schnell mal selbst“ etwas aus den Fingern zu saugen.

Projektive Testverfahren

Projektiven Tests (die in der Psychologie tatsächlich angewendet wurden und teilweise noch werden) ist gemeinsam, dass der Teilnehmer mit unstrukturiertem, d.h. mehrdeutigem Material konfrontiert wird. Im TAT (siehe Reihe zu „Motivation“) erzählt der Teilnehmer eine Geschichte zu einem mehrdeutigen Bild, und im relativ bekannten Rorschach-Test werden die Teilnehmer aufgefordert, zu sagen, was ein bestimmter Tintenklecks darstellt (Der Rorschach-Test wurde übrigens ursprünglich nur dazu entwickelt, die Wahrnehmung von Schizophreniepatienten zu untersuchen).

Das Problem, das bei all diesen Verfahren besteht, ist die Annahme, dass der Teilnehmer etwas auf das mehrdeutige Material projiziert, was ihm nicht bewusst ist. Gemäß Sigmund Freuds Theorie wären das vor allem verdrängte Triebe und Wünsche (meistens: Sex). Wenn jemand nun sagt, er erkenne in einem Tintenklecks ein männliches Geschlechtsorgan, wird das als eine Projektion der unterdrückten Libido angesehen. Wie welche Antwort zu deuten ist, hängt größtenteils von der Erfahrung des Testleiters ab und ist deshalb wenig objektiv.

Zudem konnte die Theorie Freuds nie wirklich bestätigt werden, weshalb er übrigens auch in der modernen wissenschaftlichen Psychologie keine bedeutende Rolle spielt (obwohl man ihm zugute halten muss, dass er durch seine kontroversen Theorien viele fruchtbare Diskussionen angeregt und viel Forschung angestoßen hat). Es ist unklar, was da projiziert wird: verdrängte Wünsche und Bedürfnisse oder vielleicht doch einfach Ideen, die einem durch den Kopf gehen, weil man sich gerade zuvor damit beschäftigt hat? Oder projiziert der Teilnehmer vielleicht eigene Eigenschaften auf das Material? Oder einfach nur seinen aktuellen Gefühlszustand, z.B. Angst?

Was ich damit sagen will, ist, dass das größte Problem dieser Verfahren die fehlende Validität ist, wobei der TAT (oder vielmehr dessen Weiterentwicklung – die Picture Story Exercises von McClelland) hierbei eine Ausnahme darstellt, da dort die Objektivität, die Realiabilität und die Validität im Hinblick auf implizite Motive zumindest teilweise gesichert sind. Da sie keine quantitativen Daten (=Zahlen) liefern, ist auch keine Normierung möglich (siehe auch Teil 1). Von Objektivität bei der Deutung und Interpretation kann keine Rede sein, und die Untersuchung der Reliabilität ist kaum möglich, da man sonst Teilnehmer bitten müsste, zweimal hintereinander dieselbe Geschichte zu erzählen oder denselben Klecks zu deuten.

Anbei gibt es noch ein wunderschönes Beispiel für einen völlig unsinnigen Test, der sogar von Hogrefe (dem Verlag, der die meisten psychologischen Tests veröffentlicht) verkauft wird, obwohl sämtliche Gütekriterien nicht erfüllt sind: der Baum-Test. Hier soll angeblich die Art und Weise, wie der Teilnehmer einen Baum zeichnet (z.B. vereinfacht-schematisch oder realistisch mit Blättern und Ästen) Aufschluss geben darüber, wie erwachsen bzw. reif ein Mensch ist.

Die unten stehenden Bilder zeigen zwei entsprechende Baum-Bilder (links die Zeichnung, die als „infantil gelten würde, rechts die „erwachsene“ Version) sowie einen (von mir selbst gezeichneten, keinen originalen) Rorschach-Klecks (Was meinen Sie, was der Klecks darstellt: einen Fisch, eine Wolke, ein Raumschiff,…?).

Der kinesiologische Muskeltest

Dieser Test gehört zu den diagnostischen Methoden der spirituell-alternativer Heilmethoden. Der Begriff „Kinesiologie“ bezeichnet sowohl diese der Chiropraktik und Körpertherapie entstammenden Methoden als auch die seriöse Wissenschaft der motorischen Abläufe im Körper. Der oben genannte Test ist ein wunderbares Beispiel für einen unvaliden Test, der, obwohl er keinerlei gültige Aussagen über eine Person zulässt, trotzdem immer mehr Anhänger (darunter auch wissenschaftlich ausgebildete Personen wie Psychologen und Ärzte) findet.

Dieser Test wird für nahezu alle Fragestellungen angewendet, die den Menschen betreffen, was für sich alleine genommen schon sehr zweifelhaft ist. Vereinfacht gesagt, läuft es so ab: Der Patient hält seinen Arm so hoch, dass er parallel zum Boden verläuft, und der Kinesiologe (oft sind das Heilpraktiker mit einer Affinität zu esoterischen und spirituellen Methoden) stellt eine Frage. So gut wie immer handelt es sich um binäre Fragestellungen, d.h. solche, die nur mit ja oder nein beantwortet werden können (auch sehr sinnvoll im diagnostischen Prozess – Vorsicht Sarkasmus). Diese können seriös-biologischer Natur sein („Ist das Immunsystem intakt?“, „Ist der Körper mit Schwermetallen belastet?“), oder aber spirituell-esoterischer Qualität („Ist der Körper mit Erdstrahlen belastet?“, „Liegen innere Blockaden vor?“, „Ist die Aura durch den Geist eines Verstorbenen angegriffen?“, oder auch „Ist die Entscheidung des Patienten für X die falsche“). Dann versucht der Kinesiologe, den Arm des Patienten herunterzudrücken. Wenn er dies schafft, ist die Antwort auf all die Beispielfragen „ja“, wenn er es nicht schafft, „nein“.

Die Idee dahinter ist, dass sämtliche negative Ereignisse und Zustände im Körper (Erdstrahlen, Schwermetalle, innere Blockaden, falsche Entscheidungen…) den Muskeltonus mindern und somit dafür sorgen, dass im Moment nach der Fragestellung die Muskelanspannung verschwindet und der Arm gegen den Willen des Patienten heruntergedrückt werden kann.

Der Test wurde natürlich wissenschaftlich untersucht und erwies sich bezüglich all der Dinge, die man tatsächlich erfassen kann (Erdstrahlen & Co. fallen hier natürlich raus ) als völlig unvalide, was bedeutet, dass er keinerlei korrekte Aussagen über den Zustand einer Person zulässt. Zudem muss angemerkt werden, dass es für das Erschlaffen der Muskeln in einem solchen Moment zahlreiche andere Erklärungen gibt, z.B. dass durch die Fokussierung der Aufmerksamkeit auf ein unangenehmes Thema die Spannung im Arm nachlässt. Die meisten Kinesiologen lehnen diese Befunde sowie die naturwissenschaftliche Denkweise schlichtweg ab, ohne dabei triftige Gründe nennen zu können.

„Lügendetektortests“: Kann man tatsächlich überprüfen, ob das Gegenüber flunkert?

Wenn ich vom klassischen „Lügendetektor“ spreche, meine ich das Gerät, welches in Fachkreisen als Polygraph bekannt ist. Dieses Gerät zeichnet verschiedene physiologische Parameter auf, darunter z.B. die Herzrate (= Herzschläge pro Minute bzw. Puls) und die Hautleitfähigkeit (= wie stark schwitzt die Haut?). Diese Maße spiegeln den Erregungszustand des Körpers wider und sind ein Anzeichen für Angst. Die Logik hinter dem Test ist die, dass ein Mensch, wenn er verhört/befragt wird und dabei lügt, ein erhöhtes Erregungsniveau aufweist, weil er fürchtet, dass seine Lügen auffliegen.

Das Problem an diesem Test ist die nur sehr eingeschränkte Validität und die Ermangelung eines klaren Testwerts, ab dem man davon ausgehen soll, dass derjenige lügt. Der Test liefert immer wieder viele falsch-positive (Der Test sagt „Lüge“, der Verhörte lügt aber gar nicht) und falsch-negative Ergebnisse (Der Test sagt „Wahrheit“, der Verhörte lügt aber), weshalb er als Beweismittel vor Gericht (inzwischen!) nicht mehr zugelassen ist, nachdem es lange Zeit Gang und Gäbe war. Warum jemand in einer solchen Situation aufgeregt ist und Angst empfindet, kann etliche Ursache haben: z.B. die Angst davor, Angst zu zeigen, weil einem genau dies negativ ausgelegt wird, die Angst, allgemein ins Gefängnis zu kommen, die Angst, dass niemand einem glaubt, etc.

Da jedoch viele Menschen glauben, der Lügendetektortest liefere korrekte Aussagen, machte sich der US-amerikanische Psychologe Harold Sigall dies zunutze und entwickelte das so genannte Bogus-Pipeline-Paradigma. Hierbei handelt es sich um eine Methode zur wissenschaftlichen Erforschung von z.B. Einstellungen. Gerade wenn es um die Einstellung zu Randgruppen wie Migranten, Homosexuellen und Angehörige bestimmter Religionen geht, sagen viele Menschen nicht ehrlich, welche Einstellung sie dazu haben, weil sie wissen, dass ihre Meinung sozial nicht konform ist und daher verurteilt werden würde. Um an die wahren Einstellungen dieser Menschen heranzukommen, schloss Sigall sie an einen angeblichen Lügendetektor an und forderte sie auf, die Wahrheit zu sagen, da das Gerät eine Lüge ohnehin entdecken würde. Der Plan ging auf – und Sigall konnte zeigen, wie ehrlich Menschen sind, wenn sie glauben, dass sie nicht unentdeckt lügen können. Inzwischen ist das Bogus-Pipeline-Paradigma aber aufgrund der ethischen Einwände (Versuchspersonen werden aufgrund eines Tricks/Betrugs sensible Informationen entlockt) verboten.

Andere Verfahren zur Entdeckung von Lügen richten sich auf Verhaltensbeobachtungen und postulieren, dass Lügen z.B. mit nicht vorhandenem Blickkontakt, bestimmten minimalen und nicht bewusst steuerbaren Mimiken (also Gesichtsausdrücken) oder bestimmten Bewegungen (wie dem Kratzen an der Nase) einhergehe. Die Erforschung der Validität solcher Hinweise ist aber zum momentanen Augenblick noch sehr unausgereift. Im Vergleich zum Forschungszustand werden diese Methoden aber schon sehr häufig angewendet – vor allem im Kriminalbereich.

Noch neuer sind neurowissenschaftliche Verfahren zur Aufdeckung von Lügen. Mittels funktioneller Magnetresonanztomographie (umgangssprachlich auch als “ funktionaler Kernspin“ bekannt, kurz fMRT) konnten bestimmte Gehirnareale identifiziert werden, die während des Lügens ihre Aktivität steigern. Hierin steckt natürlich ein großes Potenzial, und Justiz & Co. werden sicherlich bald Interesse anmelden. Es ist hierbei aber aus zwei Gründen Vorsicht geboten: Erstens, weil die fMRT-Technik fehleranfällig ist und falsch-positive wie falsch-negative Ergebnisse somit vorprogrammiert sind – denn zwischen den ursprünglichen Daten und den Gehirnbildern mit den hell aufleuchtenden Punkten, die gesteigerte Aktivität anzeigen, liegen unglaublich viele statistische Umrechnungs- und Mittelungsprozesse, bei denen eine Menge schief gehen kann. Zweitens, weil ein solches Vorgehen gegen ethische Richtlinien verstoßen kann: Darf es zulässig sein, einen Menschen zum Verhör einer vergleichbar unangenehmen Prozedur wie der MRT zu unterziehen? Insgesamt gibt es also nicht wirklich einen Grund zur Euphorie.

Graphologie – die Persönlichkeit aus der Handschrift lesen

Die Graphologie beschreibt die vermeintliche Wissenschaft, die sich damit beschäftigt, aus der Handschrift einer Person deren Persönlichkeit „herauszulesen“. Zurecht hat die Graphologie inzwischen den Status einer Pseudowissenschaft, weil sich dieses Verfahren als absolut nicht valide herausgestellt hat. Daher ist auch der häufig synonym verwendete Begriff „Schriftpsychologie“ hierbei nicht korrekt.

Wie viele andere nachweislich unvalide Verfahren wird es aber tatsächlich in manch einem Unternehmen noch angewendet, wenn es um die Auswahl geeigneter Bewerber geht. Und das, obwohl die Wissenschaftler Schmidt und Hunter in einer Metaanalyse (die sehr viele Einzelstudien zusammenfasst) zeigen konnten, dass die mittlere Validität von Graphologie genau 0,02 (!) beträgt – was bedeutet, dass dieses Verfahren praktisch keinerlei Zusammenhang mit späterem Berufserfolg hat. Warum sich diese Methode so hartnäckig hält, liegt zum Großteil daran, dass ihre Verfechter unzählige Anekdoten von ehemaligen Bewerbern auf Lager haben, die die angebliche Validität belegen (anekdotische Evidenz). Diese ist aber, weil durch die eigene subjektive Wahrnehmung, das Ausblenden von Gegenbeispielen und die eigene Einstellung verzerrt, nicht einmal ansatzweise mit objektiven wissenschaftlichen Befunden zu vergleichen. Wenn also einmal ein Unternehmen einen handgeschriebenen Lebenslauf von Ihnen verlangt, würde ich Ihnen raten: Finger weg von dem Laden!

Warum diese Methode totaler Unsinn ist, wird schon deutlich, wenn man überlegt, wie leicht man seine eigene Schrift ändern und verstellen kann. Ich habe in meiner Schulzeit bestimmt zehn Mal die Handschrift einfach von einem auf den anderen Tag geändert, weil ich wiedermal was Neues ausprobieren wollte. Aber ok, ich war vielleicht auch extrem.

Physiognomie – die Persönlichkeit aus dem Gesicht lesen

Die Physiognomie bezeichnet eigentlich die Lehre vom menschlichen Körperbau und ist Teil der Anatomie. An dieser Stelle meint es aber die ebenfalls pseudowissenschaftliche Methode, mit der bestimmte Menschen versuchen, aufgrund des Körperbaus Rückschlüsse über die Persönlichkeit einer Person zu ziehen. Insbesondere das Gesicht wird hierbei sehr häufig als Quelle herangezogen. Ausgeprägte Wangenknochen werden dann z.B. zum Indiz für Durchsetzungsvermögen, kleine Ohren gelten als Zeichen für Geiz und eine große Nase enthüllt, dass deren Besitzer sehr nachdenklich ist. Es existieren hierüber hunderte Bücher, meist geschrieben von selbst ernannten Experten, die einem sagen, welches Merkmal für welche Persönlichkeitseigenschaft steht. Genau so gibt es auch solche „Experten“, die man dann eines Tages bei Markus Lanz oder Johannes B. Kerner (ich weiß, der ist abgeschafft) sitzen sieht und die dort fröhlich ihre Pseudo-Weisheiten verbreiten. Natürlich wird dann im Gesicht des Moderators gelesen, wie es um dessen Persönlichkeit bestellt ist, und – oh Wunder – es stimmt! Natürlich nicht, weil man aus den äußeren Eigenschaften eines Gesichts die Persönlichkeit ablesen kann, sondern weil 1) grundsätzlich nur positive Eigenschaften genannt werden, die dem Betreffenden schmeicheln, der dann kaum widersprechen wird, 2) die „Gesichtsleserin“ aus Vorinformationen und auf Basis des Verhaltens des Moderator schon viel über dessen Persönlichkeit weiß, was ihre Deutung maßgeblich beeinflusst, und 3) sie die gleiche Technik anwendet wie (gute) Kartenleger, Kristallkugelinterpreten und sonstige Menschen mit der vermeintlichen Gabe, in die Zukunft zu sehen: Sie nennt allgemeine Eigenschaften, die sowieso auf fast jeden zutreffen und denen somit kaum widersprochen wird, und sie tastet sich vorsichtig an ihre Deutungen heran, indem sie immer nur eine Behauptung aufstellt und dann auf die Rückmeldung des Betreffenden wartet. So vermeidet sie es, sich in eine völlig falsche Richtung zu bewegen. Das Ergebnis des ganzen ist natürlich das Staunen der gesamten Talkrunde, verblüffte Anerkennung – und ein typisches Stück anekdotische Evidenz (oben erklärt) für eine eigentlich komplett unvalide Methode.

Natürlich treffen manche Sachen tatsächlich zu, z.B. wenn über einen großen Mann mit breiten Schultern gesagt wird: „Er ist durchsetzungsfähig und selbstbewusst“. Es ist gut möglich, dass das stimmt. Aber die Kausalität ist eine andere: Er ist nicht groß und hat breite Schultern, weil er selbstbewusst und durchsetzungsstark ist (Das wäre die Deutung von Physiognomie-Experten). Er hat diese Eigenschaften sehr wahrscheinlich, weil sein Körperbau entsprechend ist! Genauso, wie es gut sein kann, dass jemand mit einem eher weniger hübschen Gesicht garstig im Umgang mit anderen ist: Die Eigenschaft ist vielmehr Folge der Beschaffenheit des Gesichts und den damit hervorgerufen Reaktionen anderer als die Ursache dessen!

Während diese Art des Persönlichkeits-Lesens völliger Quatsch ist, weil unsere körperlichen Merkmale durch ganz andere Gene und Umwelteinflüsse bestimmt werden als unsere Persönlichkeit, sind die Schlussfolgerungen aufgrund von Mimik und Gestik kein Unsinn. Zwar lassen unsere Gesichtsausdrücke und unsere Gesten vielmehr Rückschlüsse auf momentane Emotionen zu als auf unsere Persönlichkeit, allerdings haben viele Studien gezeigt, dass Menschen das Gesicht als Quelle für sehr viele Informationen über eine Person benutzen (jetzt mal unabhängig davon, ob diese Informationen zutreffen). So ist z.B. gut untersucht, dass Menschen in Bruchteilen einer Sekunde (!) einen ersten Eindruck eines unbekannten Gesichts formen und entscheiden, ob sie dieses mögen oder nicht. Das heißt, es ist in der Tat so, dass wir aufgrund der unbewussten Verrechnung von zahlreichen Informationen sehr schnell ein Urteil über eine Person bilden. Dies hat aber nichts mit den Behauptungen von Physiognomie-Verfechtern zu tun, die oft viele Gesichtsmerkmale heranziehen, die Menschen bei der Fällung dieses Urteils gar nicht berücksichtigen, und die sehr spezifische Eigenschaften benennen, die unser Gehirn in so kurzer Zeit gar nicht bedenken kann. Insgesamt gilt also auch hier: Vorsicht vor Unsinn!

Damit wäre ein weiteres großes Anliegen von mir abgehakt – darüber aufzuklären, was echte psychologische Tests sind und was nicht. Und wenn ich auch nur ein bisschen dazu beigetragen habe, dass Sie als Leser nun ein bisschen besser bewerten können, was seriös und was Unsinn ist, habe ich mein Ziel schon voll erreicht.

Psychologische Tests – Teil 1: Woran erkennt man die echten unter ihnen?

Da auch hierüber in der Gesellschaft sehr weit verbreitete falsche Annahmen zu finden sind, fand ich es sehr wichtig, einmal darzustellen, was eigentlich einen „richtigen“ psychologischen Test ausmacht . Deshalb geht es in diesem und in den zwei folgenden Artikeln darum, was psychologische Tests überhaupt sind und was Beispiele für gute und weniger gute Vertreter sind.

Ich möchte fast wetten, dass Sie, liebe_r Leser_in, schon einmal in Ihrem Leben an einem psychologischen Test oder einem, der behauptete, einer zu sein, teilgenommen haben. Tatsächlich trennt sich hier aber die Spreu vom Weizen – denn es gibt seriöse, „echte“ psychologische Tests, die gültige Aussagen über eine Person zulassen, und „falsche“, die genau dies nicht erlauben. Ziel aller psychologischer Tests ist es, ein bestimmtes, „in der Person liegendes“ und daher von außen nicht direkt beobachtbares Merkmal (Persönlichkeit, Intelligenz, Gedanken…) mehr oder weniger indirekt zu messen. Doch was unterscheidet nun die „echten“ von den „falschen“ Tests?

Merkmale von echten psychologischen Tests

Quantitative Daten

Ein guter psychologischer Test liefert, wenn auch auf Umwegen, immer Zahlen als Daten. Das bedeutet, selbst wenn die Antworten des Teilnehmers nicht direkt als Zahlen vorliegen (wie es z.B. in einem Fragebogen mit einer 7-stufigen Skala der Fall ist), muss der Test eine Möglichkeit bieten, wie der Testleiter den Antworten oder dem Verhalten eines Probanden Zahlen zuweisen (= das Verhalten quantifizieren) kann. Dieses System muss standardisiert sein (siehe „Objektivität“), und es ist die Grundlage für das Kriterium der Normierung.

Objektivität

Dieses Merkmal bedeutet, dass der Test, unabhängig von der durchführenden Person, immer gleich angewendet und ausgewertet und das Ergebnis immer gleich interpretiert wird. Durchführung, Auswertung und Interpretation sind fest vorgeschrieben. Das Ergebnis unterliegt somit keinen subjektiven Eindrücken, Deutungen oder Manipulationen – der gesamte Testablauf ist standardisiert.

Reliabilität

Dieser Begriff bedeutet Zuverlässigkeit. Im Klartext ist dieses Kriterium erfüllt, wenn der Test bei wiederholter Durchführung dasselbe oder annähernd dasselbe Ergebnis liefert. Wenn jedoch das gemessene Merkmal von Natur aus schwankt (z.B. Einstellungen), kann es passieren, dass dieses Kriterium keinen Sinn macht. Dann kann man höchstens schauen, ob das Merkmal innerhalb sehr kurzer Zeiträume stabil bleibt. Die Reliabiliät wird durch einen Wert zwischen 0 und 1 beschrieben, wobei 1 für maximale Zuverlässigkeit steht (der Testwert stimmt bei beiden Messungen exakt überein). In der Realität sind Werte zwischen 0,7 und 0,9 normal und ausreichend für die Praxis. Von diesem Wert hängt die Größe des so genannten „Konfidenzintervalls“ ab. Dieses gibt, da ein psychologischer Test nie so präzise misst wie beispielsweise eine Waage, den Bereich an, in dem der tatsächliche Testwert mit 95%iger Wahrscheinlichkeit liegt. So könnte ein Intelligenztest z.B. einen IQ-Wert von 104 liefern, und das Konfidenzintervall könnte bei einer Reliabilität von 0,9 von 100 bis 108 reichen. Hierzwischen liegt dann sehr wahrscheinlich der „wahre“ Wert der Person.

Streng genommen ist mit Reliabilität übrigens eigentlich nicht gemeint, dass zweimal hintereinander derselbe Wert rauskommt, denn auch wenn alle untersuchten Personen bei der zweiten Messung z.B. 5 Punkte dazugewonnen haben, ergibt das eine Reliabilität von 1. Es geht genau genommen nur um die Einhaltung der Rangfolge der Personen: Wird diese bei beiden Messungen eingehalten, ist der Test reliabel. Aber wie gesagt: Für das Alltagsverständnis reicht die obige Definition.

Normierung

Normierung bedeutet, dass der erreichte Testwert einer Person nie losgelöst betrachtet wird, sondern immer mit einer repräsentativen Normierungsstichprobe verglichen wird. Diese besteht aus Personen, die der getesteten Person bezüglich Alter und Geschlecht ähnlich sind. Dazu berechnet man den Abstand zwischen dem Testwert der Person und dem Mittelwert der Normierungsstichprobe. Ein Beispiel: Der neunjährige Theo erreicht in einem Intelligenztest eine Punktzahl von 144, insgesamt sind in dem Test 220 Punkt zu erreichen. Achtung – das ist der Rohwert, nicht der IQ-Wert. Der ergibt sich erst durch weitere Berechnungen, bei der Theos Punktzahl, die durchschnittliche Punktzahl in der Normierungsstichprobe der neunjährigen Jungen und die durchschnittliche Abweichung von dieser Durchschnittspunktzahl (die Standardabweichung) mit einbezogen werden. So erhält man IQ-Werte, die so standardisiert sind, dass der Mittelwert 100 beträgt und die Standardabweichung 15. Weil bei diesen Umrechnungsprozessen dividiert wird, spricht man vom Intelligenzquotienten. Da IQ-Werte daher keine festen, sondern relative Werte darstellen, ist unbedingt zu beachten, mit welcher Normierungsstichprobe jemand verglichen wird: So kann ein Gymnasiast beim Vergleich mit einer Stichprobe aus der breiten Normalbevölkerung einen IQ von 130 aufweisen (wäre demnach also „hochbegabt“), im Vergleich mit anderen Gymnasiasten wäre er hingegen nicht so weit über dem Mittel und hätte einen IQ von 115.

Dieses vierte Kriterium bedeutet „Gültigkeit“. Ein Test besitzt Validität bzw. ist valide, wenn er tatsächlich misst, was er zu messen vorgibt. Wenn es dabei um ja/nein-Entscheidungen geht (z.B. bei der Frage, ob jemand lügt oder nicht), kann man die Validität damit bestimmen, wie oft der Test eine korrekte Aussage liefert (d.h. jemand lügt, und der Test sagt auch, dass die Person lügt – oder die Person lügt nicht, und der Test sagt auch, dass die Person nicht lügt), und wie oft er daneben liegt (Die Person lügt nicht, aber der Test besagt, dass sie lügt – und andersrum).Wenn der Test jedoch ein Merkmal messen soll, welches nicht nur zwei Kategorien hat (z.B. Intelligenz), dann betrachtet man, wie der Testwert mit anderen Merkmalen zusammenhängt. Hierzu betrachtet man die Korrelation (abgekürzt durch den Buchstaben „r“), das heißt den linearen Zusammenhang von Testwert und einem anderen Wert. Auch die Korrelation variiert zwischen 0 und 1, während 1 für einen perfekten Zusammenhang zwischen zwei Merkmalen steht.

Das unten stehende Foto zeigt als Beispiel die (hypothetische, nicht realitätsgetreue) Korrelation zwischen der Abiturdurchschnittsnote und dem Ergebnis in einem Intelligenztest. Diese beträgt hier 0,5, was in Bezug auf Validität ein sehr hoher Wert ist. Wenn man die Validität eines Tests bestimmt, ist es wichtig, dass der Testwert einen eindeutigen Zusammenhang mit verwandten Merkmalen aufweist (bei Intelligenz wären dies z.B. Schulleistung oder die Leistung in anderen Intelligenztests). Dieser Zusammenhang muss und kann aber gar nicht perfekt ( = 1) sein, weil sämtliche Merkmale (wie Schulleistung) noch durch viele andere Faktoren bestimmt werden. Die Validität eines Tests bestimmt man dabei nie nur durch die Korrelation mit einem anderen Merkmal, sondern immer mit mehreren. Validitäten von 0,3 sind dabei schon als zufriedenstellend, welche über 0,5 bereits als sehr hoch einzustufen.

Hier habe ich einmal aufgemalt, was man sich unter einer Korrelation vorzustellen hat. Die grünen Kreuze stehen alle für jeweils eine Person, von der sowohl das Ergebnis aus einem Intelligenztest (in IQ-Werten, auf der x-Achse) und die Abiturdurchschnittsnote (auf der y-Achse) vorliegen. Diese „Wolke“ von Datenpunkten (bzw. –kreuzen) zeigt einen klaren Trend von links unten nach rechts oben, der durch die rote Linie verdeutlicht wird. Das heißt, im Mittel gehen höhere IQ-Werte mit besseren Noten einher, aber natürlich gibt es auch Ausnahmen. Bei einer Korrelation von 1 lägen alle Datenpunkte auf der roten Linie – das würde bedeuten, dass Abinote und Intelligenz in einem perfekten Zusammenhang zueinander stehen und dass das eine linear (d.h. in Form einer Geraden wie der roten Linie) mit dem anderen ansteigt. Bei einem Zusammenhang von r = 0 wäre der gesamte Raum innerhalb des Graphen hingegen gleichmäßig mit Kreuzchen ausgefüllt, es wäre kein Trend in irgendeine Richtung und somit kein Zusammenhang der beiden Merkmale zu erkennen.
Auch die Reliabilität ist übrigens ein Korrelationswert. Hier würde man auf der x-Achse die Testwerte aus der ersten Durchführung abtragen und auf der y-Achse die der zweiten Durchführung. Hierbei würden die grünen Kreuzchen viel näher an der roten Linie liegen als hier im Foto, weil der Zusammenhang viel größer ist (meistens mindestens r = 0,7).

Fiktive Korrelation zwischen Intelligenzquotient und Abiturnote

Die Validität ist dasjenige Kriterium, das hauptsächlich darüber entscheidet, ob es sich um einen „echten“ psychologischen Test handelt oder nicht. Im zweiten und dritten Teil werde ich ein paar Beispiele für valide und nicht valide Tests geben.