Flug 4U9525: Hypothesen im Hinblick auf das scheinbar Unerklärliche

Auch wenn es ein ebenso trauriger wie tragischer Anlass ist, habe ich mich entschieden, den Absturz von Flug 4U9525 zum Anlass für einen neuen Blogartikel zu nehmen, nachdem über ein halbes Jahr berufsbedingte Funkstille herrschte. Dazu bewogen haben mich letztendlich die mehr als fragwürdigen Umstände, die gemäß der gestern veröffentlichten Ermittlungen zu dem Unglück geführt haben, und die damit verbundene Fassungslosigkeit bezüglich des Verhaltens des Copiloten.

Wie wir nun wissen, hat sehr wahrscheinlich der Copilot den Absturz der Maschine bewusst und vermutlich auch absichtlich herbeigeführt. Mit anderen Worten: Im Raum steht derzeit der begründete Verdacht, dass der Copilot sich selbst suizidiert und damit rund 150 unbeteiligte Menschen mit in den Tod gerissen hat. Dies ist für alle Beteiligten – und dabei beziehe ich mich neben den Angehörigen der Passagiere und Crewmitglieder auch auf die Familie des Copiloten – ein nur schwer nachzuvollziehender und noch schwerer zu akzeptierender Umstand, erzeugt er doch ein ungeheures Maß an Wut und Hilflosigkeit. Und hiermit verbunden ist (und auch dies ist absolut verständlich) immer auch relativ automatisch die Frage “Wie konnte so etwas passieren?”. Bei der großen Mehrzahl der Flugzeugunglücke richtet sich diese Frage auf technische Defizite, Sicherheitslücken und ggf. menschliches Versagen. Doch im Falle von Flug 4U9525 ist es anders: Hier richtet sich die Frage eher in die Richtung der fragwürdigen psychischen Verfassung des Copiloten, und ziemlich schnell wurden in den Medien auch die psychologischen Tests der Lufthansa aufs Korn genommen, die alle angehenden Piloten durchlaufen und bestehen müssen.

Typischerweise beinhalten diese Tests die Erfassung zentraler für die Tätigkeit als Pilot relevanten Persönlichkeitsmerkmale wie z.B. Stressresistenz, Gewissenhaftigkeit oder auch allgemeine Intelligenz. In der Tat hat insbesondere das Auswahlverfahren der Lufthansa einen sehr guten Ruf, und die Tatsache, dass möglicherweise nun erstmalig ein Kandidat “durchs Raster gefallen” ist, spricht im Grunde eher für als gegen das psychologische Testverfahren, da es bisher offenbar ziemlich verlässlich in der Bewerberauswahl war. Dass psychologische Tests jedoch niemals eine 100% sichere Vorhersage über das spätere Verhalten eines Bewerbers machen können, liegt zum einen in den Eigenschaften psychologischer Tests per se begründet (hier und hier nachzulesen), zum anderen aber natürlich auch darin, dass sich Menschen im Laufe der Zeit verändern, wobei zum Zeitpunkt der psychologischen Untersuchung keinerlei Vorboten für solche (z.B. charakterlichen) Veränderungen erkennbar sein müssen. Doch was wären nun – auf Basis des aktuellen Erkenntnisstands – mögliche psychologische Erklärungen für das für die meisten so derart unfassbare Verhalten des Copiloten? Ich habe mir hierüber einige Gedanken gemacht und würde gerne einige Möglichkeiten näher erläutern. Bei den folgenden Darstellungen möchte ich allerdings noch einmal betonen, dass es sich hierbei um Erklärungsansätze handelt, die auf der Annahme beruhen, dass Ursache des Unglücks tatsächlich kein technisches Versagen, sondern die intentionale Handlung einer einzelnen Person war, die wiederum nicht im klassischen Sinne terroristisch motiviert war.

Möglichkeit 1: Psychose & Depression

Eine mögliche Erklärung für das durchaus “wahnsinnig” anmutende Verhalten des Copiloten, ist, dass er tatsächlich unter einer akuten psychotischen Erkrankung wie der Schizophrenie oder aber einem verwandten Störungsbild wie beispielsweise einer schizoaffektiven oder einer wahnhaften Störung litt. Kennzeichnend für diese Gruppe von Störungsbildern sind im Wesentlichen der Verlust des Realitätsbezugs im Sinne einer Verkennung der Realität (Wahn) sowie Halluzinationen, die alle fünf Sinneskanäle betreffen können. Typisch für letzteres ist das Hören von Stimmen, die beispielsweise bestimmte Befehle erteilen. In Bezug auf Flug 4U9525 wäre also eine mögliche Erklärung für das Verhalten des Copiloten, dass er aufgrund eines akuten Wahns (Überzeugung, aus irgendeinem Grund das Flugzeug abstürzen lassen zu müssen) oder aufgrund von Stimmen, die ihm ebendies befohlen haben, entsprechend handelte. Hierdurch ließe sich auf jeden Fall das aus unseren Augen verantwortungslose Handeln erklären, da im Rahmen eines akuten psychotischen Zustands ein Hinterfragen der Wahninhalte und der Halluzinationen unmöglich wird – und somit auch die Übernahme einer anderen Perspektive wie z.B. der der Passagiere.

Es gibt jedoch mehrere Aspekte, die gegen diese Hypothese sprechen. Es gibt zwar den seltenen Fall, dass eine Schizophrenie oder eine wahnhafte Störung plötzlich und ohne “Vorwarnung” (so genannte Prodromalsymptome) auftritt, doch es wäre dennoch mehr als ungewöhnlich. Denkbar wäre hier ggf. noch eine auf organische Ursachen (akute Erkrankungen des Gehirns wie z.B. eine Gehirnblutung) zurückgehende Psychose, jedoch sind auch diese vergleichsweise selten. Zudem gehen psychotische Erkrankungen in der Regel mit einer ziemlich allumfassenden Störung kognitiver Funktionen einher, d.h. mit zumeist derart starken Konzentrations- und Auffassungsstörungen, dass es eher unwahrscheinlich erscheint, dass ein solcher Zustand unbemerkt bleibt und ein Copilot so ins Cockpit gelangt. Dagegen spricht ferner das Alter des Copiloten, der meines Wissens nach 28 Jahre alt war – denn das typische Ersterkrankungsalter für psychotische Störungen liegt bei Männern ca. im Bereich zwischen dem 19. und 24. Lebensjahr. Auch für die Möglichkeit einer schweren Depression, die oft mit Suizidgedanken, -impulsen und -handlungen einhergeht, spricht aus meiner Sicht eher wenig, da auch diese in der Regel mit derart starken Symptomen wie Antriebsminderung und Konzentrationsschwäche einhergeht, dass das Ausüben des Pilotenberufs unmöglich wird. Zudem sind bei (reinen) Depressionen derart appellative Suizide (Erläuterung siehe unten) eher untypisch. Ähnliches gilt für den Fall, dass der Entschluss zum Suizid durch die Diagnose einer schweren und ggf. tödlich verlaufenden Erkrankung getroffen wird: Auch hier wäre es bei Vorliegen einer “gesunden” Persönlichkeitsstruktur eher sehr ungewöhnlich, dass Unbeteiligte mit in den Tod gerissen werden.

Möglichkeit 2: Persönlichkeitsstörung

Die andere mögliche (psychologische) Erklärung für das Verhalten des Copiloten wäre, dass er an einer Persönlichkeitsstörung litt. Hierbei handelt es sich um tiefgreifende Störungen des menschlichen Interaktionsverhaltens vor dem Hintergrund einer extremen Ausprägung bestimmter Persönlichkeitsmerkmale, die in der Regel zu massiven Problemen zwischen der betroffenen Person und ihrer Umwelt führen (daher auch der eigentlich passendere Begriff der Beziehungsstörung). Kennzeichnend ist hierbei, dass Betroffene selbst eine Persönlichkeitsstörung meistens nicht als das eigentliche Problem sehen (man sagt daher, eine Persönlichkeitsstörung ist ich-synton) – in der Regel sehen Betroffene daher vorrangig die Schuld für ihre interaktionellen Probleme bei den Menschen in ihrer Umwelt.

Nun gibt es eine ganze Reihe verschiedener Persönlichkeitsstörungen, die sich am ehesten anhand des jeweiligen zwischenmenschlichen Motivs (bzw. Bedürfnisses) unterscheiden lassen, das die Betroffenen auf exzessive Weise und unter Anwendung problematischer Verhaltensweisen (z.B. Lügen, Manipulation, etc.) versuchen zu befriedigen. So könnte man z.B. sagen, dass bei der dependenten Persönlichkeitsstörung das Bedürfnis nach zwischenmenschlicher Nähe und bei der zwanghaften Persönlichkeitsstörung dasjenige nach Sicherheit und Verbindlichkeit in jeweils extremer Weise realisiert werden, wobei das, was die Störung zur Störung macht, die wachsenden negativen Konsequenzen und Einschränkungen sind, die die Person dadurch erleidet – und die (wenn überhaupt) meist den eigentlichen Grund für das Aufsuchen einer Behandlung darstellen.

Auf Basis der mir bekannten Umstände bzgl. des Absturzes der Germanwings-Maschine kämen aus meiner Sicht drei Persönlichkeitsstörungen in Frage. Zum einen ließe sich derart verantwortungsloses und im Grunde aggressives Verhalten durch eine antisoziale Persönlichkeitsstörung erklären, die u.a. auch durch einen Mangel an Empathie und Mitgefühl für die Opfer gekennzeichnet ist. Dagegen spricht allerdings erstens, dass Menschen mit antisozialer Persönlichkeitsstruktur in der Regel kaum einen Bildungsweg absolvieren, der schließlich zum Beruf des Piloten führt, und dass derartige Verhaltens- und Denkmuster in einer psychologischen Testung wie der der Lufthansa sehr wahrscheinlich aufgefallen wären. Zweitens spricht dagegen, dass Menschen mit antisozialer Persönlichkeitsstruktur zwar typischerweise anderen Menschen Schaden zufügen, jedoch kaum sich selbst, d.h. eher nicht den eigenen Tod mit in Kauf nehmen würden. In Frage käme darüber hinaus außerdem eine emotional-instabile Persönlichkeitsstörung (besser bekannt als Borderline-Störung), die durch eine Instabilität der Emotionen, Beziehungen und des Selbstbilds gekennzeichnet ist und mit Selbstverletzungen und Suizidversuchen einhergeht, die häufig appellativen Charakter haben, d.h. auf dramatische Weise die eigene Hilfsbedürftigkeit deutlich machen sollen. Hierzu würde zwar die Gestaltung des vermeintlichen Suizids des Copiloten passen, jedoch spricht hiergegen, dass Menschen mit emotional-instabiler Persönlichkeitsstörung selten in der Lage sind, ein so geordnetes Leben zu führen, dass sie eine Pilotenlaufbahn einschlagen und beibehalten können.

Hypothese: Appellativer Suizid nach narzisstischer Kränkung

Für die wahrscheinlichste Antwort auf die psychologische Frage nach dem “Warum” halte ich eine narzisstische Persönlichkeitsstörung. Das zentrale zwischenmenschliche Motiv, um das sich Menschen mit dieser Art von Persönlichkeitsstörung unablässlich drehen, ist das nach Anerkennung und Bewunderung. Wie der bekannte Psychotherapeut Rainer Sachse herausstellte, ist das, worunter diese Menschen im Grunde leiden, ein unauflöslicher Konflikt zwischen einem sehr negativen Selbstkonzept (“Ich bin ein inkompetenter Versager, der zu nichts in der Lage ist”) und einem übermäßig positiven Selbstkonzept (“Ich bin sowieso der Beste, alle anderen sind nur neidisch auf mich”), das der Betroffene entwickelt, um das negative Selbstkonzept zu kompensieren. Dadurch – und vor dem Hintergrund des riesigen Bedürfnisses nach Bewunderung – erklären sich viele Verhaltensweisen von Narzissten. In der Regel haben sie eine Reihe von Größenphantasien im Kopf, die sich nicht selten darum drehen, wie sie im Mittelpunkt einer großen Menschenmenge stehen und als Gewinner  gefeiert werden. Menschen mit narzisstischer Persönlichkeitsstörung sind zudem meist äußerst wettkampforientiert und stabilisieren ihr positives Selbstkonzept häufig, indem sie andere Menschen massiv abwerten (“Der kann doch nichts, der ist völlig inkompetent, der kann mir doch nie das Wasser reichen”). Kennzeichnend ist zudem ein Mangel an emotionaler Empathie (d.h. Narzissten können sich emotionale Zustände rational gut erschließen, emotional fühlen sie jedoch kaum mit) und eine damit zusammenhängende Tendenz zu manipulativem Verhalten, das letztendlich immer darauf abzielt, sich selbst in ein gutes Licht – und möglichst auch in den Mittelpunkt der kollektiven Aufmerksamkeit zu rücken. Vielleicht hat jetzt der ein oder andere Leser ein gewisses Aha-Erlebnis, weil er nun einen Begriff für manch eine Person hat, die ihn stets zur Weißglut treibt.

Das, was Menschen mit narzisstischer Persönlichkeitsstörung bisweilen unberechenbar und daher auch in einem gewissen Maß gefährlich macht, ist das, was passiert, wenn das positive Selbstbild durch Ereignisse in der Umwelt ins Wanken gebracht und das negative aktiviert wird – ein Prozess, der auch als narzisstische Kränkung bezeichnet wird. Diese kann aus unbeteiligter Sicht durch relative Lappalien ausgelöst werden, etwa durch eine vergleichsweise harmlose Kritik seitens eines Vorgesetzten, oder aber durch größere Einschnitte wie eine Kündigung oder eine vom Partner ausgesprochene Trennung. Nicht selten geraten Narzissten in diesem Moment wahrhaftig außer Kontrolle und versuchen, die Kränkung durch hasserfüllte Abwertung der Umwelt (“Wie konnte das Miststück mir das nur antun?!”) und das Üben von Rache zu kompensieren. Letzteres ist das gefährlichste, denn Rache im Sinne eines Narzissten bedeutet, der Umwelt (und hierbei wird der Hass oft von der eigentlich verursachenden Person auf andere Menschen ausgeweitet) in dem Maße “wehzutun”, wie diese (in der subjektiven Sicht der gekränkten Person) auch ihm “wehgetan” hat. Mit anderen Worten: Es ist möglich, dass ein derart gestrickter Mensch nach einer Kränkungserfahrung eine derartige Wut und einen solch ausgeprägten Hass entwickelt, dass diese sich schnell auf die gesamte Umwelt ausweiten (“Die denken doch alle, sie könnten mit mir machen, was sie wollen – aber da haben die sich geschnitten”) und ein großes Bedürfnis nach Rache entsteht. Und eben diese Konstellation kann das zur Folge haben, was (wie oben schon angerissen) auch als appellativer oder demonstrativer Suizid bezeichnet wird – womit wir es übrigens auch häufig bei Amokläufen zu tun haben, denen nicht selten ebenfalls eine massive Kränkung des Täters vorausgeht, z.B. durch Mobbing. Werden (wie wahrscheinlich im Fall von Flug 4U9525) unbeteiligte Personen mit hineingezogen, spricht man zudem auch vom erweiterten Suizid oder vom Mitnahmesuizid.

Ein solcher appellativer Suizid beruht meist auf zwei Annahmen: Erstens, dass die gekränkte Person durch einen derart Aufmerksamkeit erregenden Tod der Welt “einen Denkzettel verpassen” kann, da dieser somit vor Augen geführt wird, was sie der Person alles “angetan” hat – und zweitens, dass sie durch das Mitreißen von im Grunde unbeteiligten Menschen zumindest zum Teil “Rache an der Menschheit” nehmen kann, die sich gemäß der Wahrnehmung der gekränkten Person kollektiv gegen sie gerichtet hat. Mir ist bewusst, dass derartige Gedankengänge sehr erschreckend und beängstigend wirken können; dennoch sind sie ebenso Teil der Realität wie die Menschen, zu denen sie gehören. Das Gefährliche hieran ist dabei leider auch, dass Menschen mit narzisstischer Persönlichkeitsstörung häufig sehr gut darin sind, derartige Denkmuster zu verbergen, und sich oft nach außen hin sehr adäquat verhalten, was erklären könnte, dass entsprechende Persönlichkeitsmerkmale selbst in psychologischen Untersuchungen mitunter unentdeckt bleiben. Zudem ist es anders als bei den anderen beiden diskutierten Persönlichkeitsstörungen so, dass Betroffene in der Regel einen hohen Bildungserfolg aufweisen und so z.B. auch Zugang einer Pilotenausbildung erhalten.

Korrekterweise muss ich an dieser Stelle herausstellen, dass es sich bei dem, was ich im vergangenen Abschnitt beschrieben habe, um eine Extremform der narzisstischen Persönlichkeitsstörung handelt, die in der Mehrzahl der Fälle nicht zu derarzt verheerenden Handlungen führt wie soeben beschrieben. In Bezug auf das aktuelle Flugzeugunglück ist hierdurch jedoch eine mögliche Erklärung für das Verhalten des Copiloten von Flug 4U9525 gegeben, die mir auf Basis des aktuellen Erkenntnisstands und meines psychologischen Wissens zumindest plausibel erscheint. Ich erhebe dabei nicht den Anspruch, hiermit die richtige Erklärung gefunden zu haben. Mein Hauptanliegen hierbei ist, die Fassungslosigkeit der Menschen aufzugreifen und deutlich zu machen, wie es tatsächlich doch dazu kommen kann, dass Menschen in einer Art und Weise handeln, wie sie für die meisten von uns völlig unverständlich – und durchaus auch beängstigend ist.

 © Christian Rupp 2015

Intelligenz – Teil 4: Was messen IQ-Tests und worin besteht ihre Berechtigung?

Nachdem es in Teil 3 darum ging, wie sich der so genannte „IQ“ berechnet und wie er zu interpretieren ist, widmet dieser Artikel sich der Frage: Wie lässt sich Intelligenz messen? Und messen Intelligenztests tatsächlich Intelligenz?

Die verschiedenen Arten von Intelligenztests lassen sich ganz grob in zwei Gruppen einteilen. Anhand ihrer Verbreitung und Etabliertheit habe ich diese zwei Kategorien einmal „untypisch“ und „typisch“ getauft.

„Untypische“ Vertreter

In diese Kategorie fallen zu allererst einmal die so genannten elementaren kognitiven Aufgaben (kurz EKAs). Hierbei handelt es sich um eine Reihe relativ einfacher Aufgaben, z.B. die Identifikation von präsentierten Reizen (Kreis oder Quadrat?), die Unterscheidung von Reizen (Welcher der zwei Töne ist höher?) oder die Erinnerungsleistung in Kurzzeitgedächtnisaufgaben (z.B. maximale Zahl von Zahlen, die jemand, unmittelbar nachdem er sie gehört hat, in derselben Reihenfolge wiedergeben kann). Die Variablen, die hier als Maß für Intelligenz herangezogen werden, sind unter anderem die Reaktionszeit, die so genannte inspection time (Zeit, die jemand benötigt, um z.B. zu sagen, welche von zwei Linien länger ist) oder aber auch mit dem EEG gemessene ereigniskorrelierte Potenziale, wobei die Dauer bis zum Auftreten des Pozentials im EEG (die so genannte Latenz) als Maß für die Verarbeitungsgeschwindigkeit herangezogen wird, die wiederum Intelligenz widerspiegeln soll. Zur Validität der EKAs (also der Frage, in wiefern diese tatsächlich Intelligenz messen), liegen divergierende Befunde vor. Untersucht wurde diese Fragestellung, indem der lineare Zusammenhang (die Korrelation) zwischen der Leistung in EKAs und der Leistung in „typischen“ Intelligenztests berechnet wurde. Diese Korrelation allerdings schwankt in den verschiedenen Studien zwischen 0,35 und 0,70 – mit anderen Worten: Der Zusammenhang ist nicht bombig, und es ist wenig naheliegend, die Leistung in EKAs als alleinigen Indikator für Intelligenz zu betrachten. Ähnliches gilt für die Gehirngröße (gemessen z.B. per MRT bei lebenden oder aber direkt am Objekt  bei toten Menschen), die laut einer Metaanalyse von McDaniel (2005) eine Korrelation von 0,33 mit der Leistung in typischen Intelligenztests aufweist. Dass hier kein so besonders großer Zusammenhang besteht, ist wenig verwunderlich, wenn man bedenkt, dass die Art der synaptischen Vernetzung in unserem Gehirn sehr viel wichtiger für die reibungslose Verarbeitung von Informationen ist als dessen einfaches Volumen.

Zweitens wären da eine Reihe von Tests, die offenkundig „typischen“ Vertretern ähneln, sich aber dadurch von diesen unterscheiden, dass sie den Generalfaktor g ablehnen, d.h. nicht von einem, allen Facetten übergeordneten allgemeinen Intelligenzfaktor ausgehen, sondern von mehreren voneinander unabhängigen Faktoren. In der Tat stellen die von diesen Tests postulierten Faktoren meist elementare kognitive Funktionen (ähnlich den EKAs) dar – und keine Intelligenzkomponenten, wie in den in Teil 2 beschriebenen Modellen aufgeführt. In diese Kategorie fallen z.B. das Cognitive Assessment System (CAS) und die Kaufman-Tests (z.B. das „K-ABC“). Während das CAS u.a. die Faktoren Planung (Strategien zur Problemlösung entwickeln) und Simultanität (getrennte Objekte zu etwas Ganzem integrieren) erfasst, unterscheidet das K-ABC zwischen erworbenen Fertigkeiten (Rechnen und Schreiben), simultaner Verarbeitung (Matrizen-Aufgaben der Sorte „Welches Bild ergänzt das Muster?“) und sequenzieller Verarbeitung (z.B. Zahlen nachsprechen). Wichtig beim K-ABC: Nur diese letzten zwei Faktoren sollen die kognitive Leistungsfähigkeit widerspiegeln; erworbene Fähigkeiten werden isoliert hiervon betrachtet.

„Typische“ Vertreter

Zu den typischen Vertretern gehören alle psychometrischen Tests, d.h. solche, die in der Regel auf einem bestimmten Intelligenzmodell (siehe Teil 2) basieren, eine Reihe verschiedener Aufgabentypen beinhalten, die normiert sind (damit die Leistung der getesten Person mit der von hinsichtlich Alter und Geschlecht ähnlichen Personen verglichen werden kann) und (das ist zentral) deren Gütekriterien (Objektivität, Reliabilität, Validität) überprüft wurden und als gesichert gelten.

Die meisten dieser Tests basieren auf Modellen, die einen g-Faktor annehmen, und ermöglichen daher auch die Berechnung eines allgemeinen Intelligenzquotienten. Ein Beispiel hierfür sind die Wechsler-Intelligenztests, z.B. der WIE (Wechsler-Intelligenztest für Erwachsene) oder der HAWIK-IV (Hamburg-Wechsler-Intelligenztest für Kinder, 4. Auflage). In den Wechsler-Tests gibt es u.a. die typischen Aufgabenbereiche Allgemeines Wissen, Finden von Gemeinsamkeiten, Matrizen ergänzen, Mosaike legen, Zahlen nachsprechen (vorwärts und rückwärts) und Kopfrechnen. Während die Wechsler-Tests sowohl die Berechnung der allgemeinen Intelligenz als auch verschiedener Unterfacetten ermöglichen, erlauben die so genannten Raven-Tests, die ausschließlich aus Matrizenaufgaben bestehen, nur die Berechnung eines allgemeinen IQs. Der Intelligenzstruktur-Tests (IST-2000-R), der auf dem Modell von Thurstone basiert, ermöglicht hingegen nur die Berechnung von IQ-Werten für die Bereiche schlussfolgerndes Denken (verbal, figural und numerisch) und Merkfähigkeit (verbal und figural). Zusätzlich gibt es einen Wissenstest, der aber nicht obligatorisch ist und am ehesten kristalline Intelligenz widerspiegelt.

Wozu das ganze? Der Sinn der Intelligenzmessung.

Nun kann man sich fragen, was es einem bringt, die Intelligenz einen Menschen (bzw. das, was diese ganzen Tests vorgeben, zu messen) zu erfassen. Die selbstwertregulierende Funktion liegt auf der Hand (es ist natürlich schön, von sich sagen zu können, dass man intelligenter als 99% der restlichen Menschheit ist), aber das ist zum Glück nicht alles.

Diagnostik von Intelligenzminderung & Hochbegabung

In der Tat sind Intelligenztests ein extrem wichtiges diagnostisches Instrument, das in vielen Bereichen zum Einsatz kommt. Im Bereich der pädagogischen Psychologie sind da z.B. die Diagnostik von Teilleistungsstörungen wie Lesestörungen, Rechtschreibstörungen und Dyskalkulie (Rechenstörung) zu nennen, zu deren Diagnose nämlich die Leistung im jeweils beeinträchtigten Bereich mindestens zwei Standardabweichungen (also deutlich) unterhalb der allgemeinen Intelligenz liegen müssen (um auszuschließen, dass es sich um eine generelle Intelligenzminderung oder gar eine geistige Behinderung handelt). Aber auch am anderen Ende der Skala ergibt sich ein wichtiges Anwendungsfeld: die Hochbegabtendiagnostik. Die ist deshalb so wichtig, weil es bei solchen Kindern von großer Bedeutung ist, diese hohe Intelligenz zu fördern, um Unterforderungserleben zu verhindern, das sonst leicht zu Problemen führen kann (z.B. weil das Kind den Unterricht stört oder sich zurückzieht). Vielleicht denken Sie hierbei auch gleichzeitig an die Diagnose einer ADHS. Das ist völlig richtig, denn auch zu dieser Diagnose muss eine Hochbegabung (genauso wie eine geistige Behinderung) als Ursache des unangepassten Verhaltens des Kindes ausgeschlossen werden.

Bewerberauswahl und Vorhersage des Schulerfolgs

Die weiteren Anwendungsgebiete von Intelligenztests ergeben sich aus der breitgefächerten prädiktiven Validität von Intelligenztests, d.h. aus der Tatsache, dass sich durch die Intelligenzleistung zu einem bestimmten Zeitpunkt bestimmte andere Variablen ziemlich gut vorhersagen lassen. So zeigte z.B. eine Metaanalyse von Schmidt und Hunter aus dem Jahr 1998, dass die allgemeine Intelligenz zu 0,54 mit dem späteren Arbeitserfolg bzw. der beruflichen Leistung korrelierte – damit sind Intelligenztests diejenige Methode mit der besten Vorhersagekraft für Berufserfolg. Trotz dieser Erkenntnis bevorzugen die meisten Unternehmen bei der Bewerberauswahl jedoch die sehr viel teureren Assessment-Center, wobei die Argumente hierfür denkbar schwach sind: Die Leistung in diesen korreliert nämlich im Mittel nur zu 0,37 mit späterem Berufserfolg. Ähnliche Korrelationen ergeben sich für die Beziehung von Intelligenz und Schulerfolg, gemessen z.B. durch die Schulnote. Diese schwanken nach Deary und Kollegen (2007) zwischen 0,43 im Fach Kunst und 0,77 im Fach Mathematik (und das ist in der Psychologie eine wirklich verdammt hohe Korrelation). Als Anwendungsfeld ergibt sich hierbei z.B. die Verteilung von Kindern auf verschiedene Schulformen, um eine jeweils optimale Förderung zu ermöglichen.

Von Haftstrafen bis Krebs

Die Vorhersagekraft der allgemeinen Intelligenz ist jedoch noch sehr viel größer. Eine große Zahl von Längsschnittstudien (d.h. solchen, die z.B. in der Kindheit den IQ messen und dann über die folgenden 20 Jahre weitere Variablen erfassen) wurde zu diesem Thema durchgeführt und führte zu verblüffenden Ergebnissen. So zeigte sich, dass mit steigendem IQ das Risiko für Arbeitslosigkeit und Armut abnimmt, ebenso wie für Scheidungen und Haftstrafen. Zudem ergab sich, dass sogar Krebsdiagnosen umso unwahrscheinlicher sind, je intelligenter der Mensch ist. Bei vielen dieser Zusammenhänge gibt es sehr wahrscheinlich so genannte vermittelnde Variablen, d.h. solche, die den Zusammenhang zwischen IQ und der jeweils anderen Variable erklären. So ist der Zusammenhang mit Arbeitslosigkeit und Armut sicherlich darauf zurückzuführen, dass ein höherer IQ höhere Bildungsabschlüsse ermöglicht, die dann wiederum das Risiko für Arbeitslosigkeit und Verarmung reduzieren. Ähnliches gilt für den Fall der Krebsdiagnosen: Menschen mit höherem IQ haben in der Regel einen gesünderen Lebensstil (trinken z.B. weniger Alkohol und rauchen nicht), was dann wiederum das Krebsrisiko niedrig hält.

Messen Intelligenztests wirklich Intelligenz?

Hier bewegen wir uns auf die Frage nach der Validität dieser Tests zu. Um die Frage aus der Überschrift zu beantworten, müssen wir jedoch verschiedene Aspekte des Konstrukts „Validität“ auseinander halten. Zunächst kann man davon ausgehen, dass bei Intelligenztests im Allgemeinen die Augenscheinvalidität (auch Inhaltsvalidität genannt) gegeben ist. Diese bezieht sich allerdings nur auf die einzelnen Untertests und meint nicht mehr, als dass die Aufgaben offenbar das erfassen, was sie vorgeben zu erfassen – z.B. dass man bei Rechenaufgaben rechnen muss, dass Wortschatzaufgaben die Größe des Wortschatzes erfassen, etc. Allerdings muss man zugeben, dass diese Inhaltsvalidität bei komplexeren Aufgaben wie Matrizenergänzungen durchaus nicht so einfach zu beurteilen ist, weil die Frage nach den Prozessen, die zur Lösung der Aufgaben bewältigt werden müssen, so groß ist, dass sie ein eigenes Forschungsfeld darstellt.

Wenn man jedoch den gesamten Test heranzieht und sich fragt, ob dieser das Konstrukt „Intelligenz“ misst, ist die Antwort schon weniger eindeutig. Dafür, dass zumindest die meisten Intelligenztests annähernd dasselbe messen, sprechen die ziemlich hohen Korrelationen zwischen den Ergebnissen derselben Person in verschiedenen Intelligenztests. Dies bezeichnet man auch als diagnostische Validität. Und dafür, dass mit diesen Tests offenbar etwas gemessen wird, das Auswirkungen auf extrem viele andere Lebensbereiche (Berufserfolg, Gesundheit, etc.) hat, liegen ebenfalls zahlreiche Belege vor (prädiktive Validität). Mit anderen Worten: Irgendetwas muss ganz offensichtlich dran sein an diesem Konstrukt.

Es gibt aber natürlich auch jede Menge Kritik an der gesamten Intelligenzmessung. An dieser Stelle sei noch einmal deutlich betont, dass es sich, wie in Teil 1 beschrieben, bei Intelligenz lediglich um ein Konstrukt handelt – und nicht um eine vom Himmel gefallene und unumstößlich definierte Begebenheit. So wird von Kritikern z.B. eingeworfen, dass klassische Intelligenztests viele Aspekte gar nicht berücksichtigen, z.B. sozio-emotionale Kompetenzen. Zudem wird häufig angemerkt, dass Intelligenz auch die Aneignung von Fertigkeiten und Wissen im kulturellen Kontext bedeutet – was die Tests allesamt nicht erfassen.

Letztendlich handelt es sich bei der Frage, was Intelligenztests messen, also um eine, die die Wissenschaft nie endgültig wird beantworten können, weil dies unmöglich ist. Man kann als Fazit allerdings zweierlei festhalten: Dass Intelligenztests das messen, was sie vorgeben zu messen, scheint auf Basis der Befunde zur Inhalts-, diagnostischen und prädiktiven Validität sehr wahrscheinlich – ebenso wie dass dieses Konstrukt, wie auch immer man es nennen mag, offenbar große Auswirkungen auf unser Leben hat. Ob diese Tests aber tatsächlich Intelligenz messen, lässt sich nicht beantworten, da es sich hierbei um ein höchst unterschiedlich definiertes Konstrukt handelt.

Bleibt der IQ immer gleich? Die Frage nach der Stabilität.

Auch diese Frage hat wiederum zwei Facetten. Die erste ist die Frage, ob Intelligenztests zuverlässig messen, d.h. reliabel sind. Im Wesentlichen ist hiermit die Frage verknüpft, wie genau Intelligenztests messen. Nun, ein psychometrischer Test misst nicht so genau wie eine Waage, das ist klar. Aber die meisten Intelligenztests haben Reliabilitäten von über 0,90, was ziemlich gut ist. Am geläufigsten ist hierbei die so genannte Retest-Reliabilität, d.h. die Frage nach der Übereinstimmung der Testergebnisse, wenn Personen denselben Test zweimal hintereinander bearbeiten. Hierbei muss das Zeitintervall natürlich groß genug sein, um auszuschließen, dass die Person die richtigen Lösungen bei der Bearbeitung lediglich erinnert. Der zeitliche Abstand darf aber auch nicht zu lang sein, da es sonst möglich ist, dass eine große Abweichung der Testwerte darauf zurückgeht, dass die tatsächliche Intelligenzleistung der Person sich verändert hat (was besonders bei Kindern der Fall ist, die einen schnellen Zuwachs verzeichnen).

Die zweite Frage ist die, ob die Intelligenzleistung selbst stabil ist. Hier bietet die Forschungslage erfreulicherweise einen relativ eindeutigen Befund: Obwohl IQ-Werte auch tagesformabhängig sind (logisch, da man sich nicht immer gleich gut konzentrieren kann), sind die Fluktuationen ziemlich gering, und Intelligenz erweist sich insgesamt als ziemlich stabile Eigenschaft. Stabil meint hierbei allerdings nicht, dass immer gleich viele Punkte im selben Test erreicht werden, sondern dass eine Person im Vergleich zur alters- und geschlechtsspezifischen Normstichprobe gleich gut bleibt. Als Beispiel: Natürlich wird ein zehnjähriges Kind im HAWIK mehr Punkte erzielen als mit sechs Jahren, aber es behält trotzdem denselben IQ, weil es bei den beiden Messungen mit unterschiedlichen Normstichproben verglichen wird. Verschiedene Untersuchungen zeigen sogar eine erstaunliche Stabilität des IQ über sehr lange Zeitspannen: So ergab sich in einer Studie von Deary und Kollegen (2000) eine beachtliche Korrelation von 0,77 zwischen den IQ-Werten einer Stichprobe, die zum ersten Mal 1932 und zum zweiten Mal 1995 an demselben Test teilgenommen hatte.

Interessant ist diesbezüglich übrigens der sehr unterschiedliche Verlauf von fluider und kristalliner Intelligenz über die Lebensspanne. Studien aus diesem Bereich zeigen, dass, während die kristalline Intelligenz (im Wesentliches also erworbenes Wissen) im Laufe des Lebens zunimmt bzw. stagniert, die fluide Intelligenz (logisches Denken etc.) abnimmt. Neuere Untersuchungen zeigen jedoch, dass der Rückgang der fluiden Intelligenz auf etwas anderes zurückzuführen ist – nämlich auf die mit dem Alter geringer werdende Erfahrung mit den Aufgabenformaten typischer Intelligenztests, die stark an die von Schulaufgaben angelehnt sind. Insgesamt kann man also sagen: Intelligenz ist ziemlich stabil, aber eben nicht perfekt stabil. Und das liegt maßgeblich daran, dass wir entgegen der weitläufigen Meinung nicht mit einem festgelegten IQ geboren werden – was Thema des fünften Teils der Intelligenz-Reihe sein wird.

 © Christian Rupp 2014

Warum werden Menschen abhängig? – Die psychosoziale Seite.

In diesem zweiten Teil soll es um die Frage gehen, welche psychischen und sozialen Faktoren die Entwicklung einer Abhängigkeitserkrankung bedingen. Hierzu habe ich vier Aspekte herausgegriffen, die mir als die wichtigsten erscheinen.

Veränderte Selbstwahrnehmung

Zu diesem Punkt liegen verschiedene Theorien vor, deren Gemeinsamkeit darin besteht, dass sie davon ausgehen, dass Alkoholkonsum zu einer veränderten Wahrnehmung der eigenen Person führt und so z.B. bei sozial ängstlichen Personen bewirkt, dass diese sich weniger schüchtern und offener in soziale Interaktionen begeben.

So postuliert z.B. die Self Awareness-Theorie, dass Alkohol die selbstbezogene Aufmerksamkeit verändert. Generell gilt: Je höher die selbstbezogene Aufmerksamkeit, desto besser stimmen externe und interne Verhaltensstandards überein, d.h. umso mehr orientiert sich das eigene Verhalten an gesellschaftlichen Normen. Unter Alkoholeinfluss reduziert sich laut dieser Theorie die Aufmerksamkeit auf die eigene Person, und in der Folge verhalten sich Menschen eher entgegen jener Normen – d.h. sie tun Dinge, die ihnen unter intakter Selbstaufmerksamkeit viel zu peinlich wären (auf dem Tisch tanzen, den Chef auf einer Betriebsfeier anbaggern, etc.). Zu dieser Theorie ist die empirische Befundlage leider sehr mager, sodass sie nicht als bestätigt angesehen werden kann.

Die Alcohol-Myopia-Theory besagt derweil, dass Alkohol dazu führt, dass bei der Entscheidung, welchem von zwei Handlungsimpulsen aus der Umwelt man folgt (z.B. auf der Betriebsfeier eher hemmungslos abtanzen oder sich aufgrund der Anwesenheit des Chefs eher zurückzuhalten)  immer derjenige gewählt wird, der weniger kognitive Verarbeitung erfordert und der am meisten hervorsticht. In diesem Beispiel wäre der dominierende Impuls “Party”, und die Verarbeitung des weniger hervorstechenden Aspekts “Chef ist anwesend” würde aufgrund des Alkoholkonsums unterdrückt, sodass der erste Impuls das Verhalten steuert und man beispielsweise wild auf dem Tisch tanzt. Für diese Theorie liegen tatsächliche einige Belege vor.

Das Appraisal-Disruption-Modell besagt etwas sehr Ähnliches. Es geht davon aus, dass Alkohol verhindert, dass bei der Wahrnehmung eines bestimmtes Reizes in der Umwelt (z.B. “Chef da drüben”) die damit assoziierten Aspekte im Gedächtnis (“nicht blamieren”) aktiviert werden, was aber für eine adäquate Bewertung des Reizes und somit angemessenes Verhalten unerlässlich ist. Die Theorie sagt somit aber vorher, dass Alkohol sich nur dann auf Selbstwahrnehmung und Sozialverhalten auswirken sollte, wenn er konsumiert wird, bevor man mit dem zu bewertenden Reiz konfrontiert wird (da er sich nur dann auf die Aktivierung im Gedächtnis auswirken kann) – eine Vorhersage, die bislang nicht bestätigt wurde.

Insgesamt kann man die Forschungsergebnisse zum Aspekt der veränderten Selbstwahrnehmung so zusammenfassen: Als bestätigt gilt, dass Alkoholkonsum die Selbstwahrnehmung verbessert, was man z.B. daran erkennt, dass sich Probanden nach dem Konsum von Alkohol positivere Eigenschaften zuschreiben (gemessen mit dem so genannten Impliziten Assoziationstest). Weiterhin wurde die Frage untersucht, ob sich durch Alkoholkonsum tatsächlich die soziale Ängstlichkeit reduziert. Hier konnte gezeigt werden, dass sozial ängstliche Probanden nach Alkoholkonsum und der Ankündigung, z.B. vor anderen eine Rede halten zu müssen, zwar subjektiv weniger Angst und Stress angaben, dies aber nicht durch objektive physiologische Messwerte, die mit Angstreaktionen einhergehen (Herzrate, Hautleitfähigkeit…) widergespiegelt wurde. Insgesamt ist aber gerade aufgrund der subjektiv wahrgenommenen Angstreduktion davon auszugehen, dass die leichter fallende Interaktion mit anderen bei sehr schüchternen Personen einen wesentlichen Beitrag dazu leistet, dass sich eine Abhängigkeit entwickelt – was dazu passt, dass sich bei Patienten mit einer sozialen Phobie häufig sekundär eine Alkoholabhängigkeit entwickelt.

Suchtbezogene Grundannahmen

Dieser Aspekt beruht auf der kognitiven Theorie bzw. der kognitiven Therapie nach Aaron Beck, der als Kern der Abhängigkeit bestimmte kognitive Strukturen (Überzeugungen, Grundannahmen) ansieht, die sich aus den Erfahrungen des Individuums in der Vergangenheit gebildet haben. Suchtbezogene Grundannahmen haben gemeinsam, dass die allesamt die Vorteile des Alkoholkonsums betonen. So könnten typische Annahmen z.B. lauten: “Ohne Alkohol kann ich keinen Spaß haben”, “Ohne Alkohol kann ich nicht entspannen”, “Ohne Alkohol wirke ich nicht attraktiv”, “Nur mit Alkohol kann ich mich ohne Angst mit Fremden unterhalten” oder “Nur mit Alkohol komme ich auf richtig gute Ideen”. Wie man sieht, können diese Annahmen vielfältig sein und natürlich auch die Aspekte der oben beschriebenen veränderten Selbstwahrnehmung beinhalten.

Das Modell nach Beck sieht nun vor, dass diese Grundannahmen in Risikosituationen (wie z.B. einer generell schlechten Stimmung) aktiviert werden, was dann bestimmte automatische Gedanken auslöst (z.B.: “Geh los und trink was”). Dies erzeugt dann starkes Verlangen nach der Substanz (hier Alkohol), was schließlich zu einem erlaubniserteilenden Gedanken führt (“Mir bleibt nichts anderes übrig als zu trinken, weil niemand da ist, mit dem ich reden könnte”) – und letztlich zum erneuten Alkoholkonsum.  In der Therapie bestünde daher ein wichtiger Ansatz darin, diese Grundannahmen durch Techniken der kognitiven Therapie zu verändern.

Abstinenz-Verletzungssyndrom

Dieser recht unschöne Begriff bezeichnet ein Phänomen, das bei abhängigen Patienten häufig nach einem Rückfall auftritt, nachdem sie es bereits einige Zeit geschafft haben, abstinent zu sein, also nichts von der Substanz zu konsumieren.  Das Abstinenz-Verletzungssyndrom (kurz AVS) ist gekennzeichnet durch starke Resignation und Minderwertigkeitsgefühle auf Seiten des Patienten, der den Rückfall als Beleg für die eigene Schwäche wertet – sowie dafür, ein Versager zu sein. Typische Gedanken, die Patienten in solchen Situationen häufig kommen, sind: “Ich bekomme es einfach nicht hin, mit dem Trinken aufzuhören”, “Dass ich einen Rückfall hatte, zeigt, dass ich dafür einfach zu schwach bin” und “Im Prinzip kann ich gleich aufhören, es weiter zu versuchen und wieder trinken wie bisher”. Daraus erklärt sich die große Gefahr, die das AVS birgt – nämlich wieder komplett in das alte Trinkverhalten zurückzuverfallen, “weil man es ja eh nicht schafft, ganz aufzuhören”. In der Therapie ist es daher enorm wichtig, zwischen einem einmaligen Rückfall (im Englischen “lapse”) und einem wirklichen Rückfall in das alte Trinkmuster (im Englischen “relapse”) zu unterscheiden und dem Patienten klar zu machen, dass es gerade wichtig ist, nach einem lapse nicht in einen relapse zu verfallen. Tatsächlich brauchen die meisten Patienten 4-5 Anläufe, bis es dauerhaft mit der Abstinenz klappt – eine Erkenntnis, die für Patienten sehr entlastend sein kann.

Veränderungen in der Familie

Zuletzt möchte ich noch auf einige soziale Aspekte eingehen, die die mit einer Abhängigkeitserkrankung einhergehenden Veränderungen in der Familie des Patienten betreffen. So kommt es infolge der Abhängigkeit häufig dazu, dass sich die Familie nach außen hin abschottet – in der Regel aus Scham und der Angst, von Verwandten, Freunden und Bekannten abgewertet zu werden. Die dadurch weniger werdenden sozialen Kontakte brechen somit als wichtige Ressource weg, was der Patient typischerweise durch gesteigerten Konsum kompensiert.

Hinzu kommt, dass in den betroffenen Familien das Thema “Abhängigkeit” oft lange Zeit vermieden und mit aller Mühe versucht wird, es z.B. vor Partner oder Kindern zu verheimlichen. Selbst wenn jeder Bescheid weiß, wird das Thema oft lieber totgeschwiegen als offen angesprochen, meist aus Unsicherheit und Hilflosigkeit der Familienmitglieder. Zudem kommt es häufig vor, dass z.B. Partner dem Abhängigen sogar entgegenkommen, indem sie beispielsweise Alkohol besorgen – natürlich in dem Bestreben, dem geliebten Partner in seinen Qualen behilflich zu sein. Hierdurch passiert natürlich langfristig das Gegenteil: Die Abhängigkeit wird aufrecht erhalten, und die Lage spitzt sich zu.

Letztlich kommt es in solchen Familien auch oft zu gravierenden Veränderungen der Rollenverteilung, z.B. wenn ein älteres Kind die Mutterrolle für jüngere Geschwister übernimmt, weil die alkoholabhängige Mutter nicht mehr in der Lage ist, für ihre Kinder zu sorgen. Solche Veränderungen halten nicht nur die Abhängigkeitserkrankung aufrecht, sondern sind außerdem hochgradig ungünstig für die Entwicklung der betroffenen Kinder. Deshalb gehört zu einer allumfassenden Therapie von Abhängigkeitserkrankungen immer auch der Einbezug der Familienmitglieder und die genaue Betrachtung der sozialen Bedingungen, in denen sich der Patient befindet.

Fazit

Wie ich in diesem und dem vorherigen Artikel hoffentlich habe zeigen können, sind die Ursachen dafür, warum Menschen eine Abhängigkeit entwickeln, sehr vielfältig – und nur durch die Berücksichtigung sowohl biologischer als auch psychischer und sozialer Aspekte lässt sich diese sehr ernste Erkrankung überhaupt verstehen.

© Christian Rupp 2013

Psychologische Tests – Teil 1: Woran erkennt man die echten unter ihnen?

Da auch hierüber in der Gesellschaft sehr weit verbreitete falsche Annahmen zu finden sind, fand ich es sehr wichtig, einmal darzustellen, was eigentlich einen “richtigen” psychologischen Test ausmacht . Deshalb geht es in diesem und in den zwei folgenden Artikeln darum, was psychologische Tests überhaupt sind und was Beispiele für gute und weniger gute Vertreter sind.

Ich möchte fast wetten, dass Sie, liebe_r Leser_in, schon einmal in Ihrem Leben an einem psychologischen Test oder einem, der behauptete, einer zu sein, teilgenommen haben. Tatsächlich trennt sich hier aber die Spreu vom Weizen – denn es gibt seriöse, “echte” psychologische Tests, die gültige Aussagen über eine Person zulassen, und “falsche”, die genau dies nicht erlauben. Ziel aller psychologischer Tests ist es, ein bestimmtes, “in der Person liegendes” und daher von außen nicht direkt beobachtbares Merkmal (Persönlichkeit, Intelligenz, Gedanken…) mehr oder weniger indirekt zu messen. Doch was unterscheidet nun die “echten” von den “falschen” Tests?

Merkmale von echten psychologischen Tests

Quantitative Daten

Ein guter psychologischer Test liefert, wenn auch auf Umwegen, immer Zahlen als Daten. Das bedeutet, selbst wenn die Antworten des Teilnehmers nicht direkt als Zahlen vorliegen (wie es z.B. in einem Fragebogen mit einer 7-stufigen Skala der Fall ist), muss der Test eine Möglichkeit bieten, wie der Testleiter den Antworten oder dem Verhalten eines Probanden Zahlen zuweisen (= das Verhalten quantifizieren) kann. Dieses System muss standardisiert sein (siehe “Objektivität”), und es ist die Grundlage für das Kriterium der Normierung.

Objektivität

Dieses Merkmal bedeutet, dass der Test, unabhängig von der durchführenden Person, immer gleich angewendet und ausgewertet und das Ergebnis immer gleich interpretiert wird. Durchführung, Auswertung und Interpretation sind fest vorgeschrieben. Das Ergebnis unterliegt somit keinen subjektiven Eindrücken, Deutungen oder Manipulationen – der gesamte Testablauf ist standardisiert.

Reliabilität

Dieser Begriff bedeutet Zuverlässigkeit. Im Klartext ist dieses Kriterium erfüllt, wenn der Test bei wiederholter Durchführung dasselbe oder annähernd dasselbe Ergebnis liefert. Wenn jedoch das gemessene Merkmal von Natur aus schwankt (z.B. Einstellungen), kann es passieren, dass dieses Kriterium keinen Sinn macht. Dann kann man höchstens schauen, ob das Merkmal innerhalb sehr kurzer Zeiträume stabil bleibt. Die Reliabiliät wird durch einen Wert zwischen 0 und 1 beschrieben, wobei 1 für maximale Zuverlässigkeit steht (der Testwert stimmt bei beiden Messungen exakt überein). In der Realität sind Werte zwischen 0,7 und 0,9 normal und ausreichend für die Praxis. Von diesem Wert hängt die Größe des so genannten “Konfidenzintervalls” ab. Dieses gibt, da ein psychologischer Test nie so präzise misst wie beispielsweise eine Waage, den Bereich an, in dem der tatsächliche Testwert mit 95%iger Wahrscheinlichkeit liegt. So könnte ein Intelligenztest z.B. einen IQ-Wert von 104 liefern, und das Konfidenzintervall könnte bei einer Reliabilität von 0,9 von 100 bis 108 reichen. Hierzwischen liegt dann sehr wahrscheinlich der “wahre” Wert der Person.

Streng genommen ist mit Reliabilität übrigens eigentlich nicht gemeint, dass zweimal hintereinander derselbe Wert rauskommt, denn auch wenn alle untersuchten Personen bei der zweiten Messung z.B. 5 Punkte dazugewonnen haben, ergibt das eine Reliabilität von 1. Es geht genau genommen nur um die Einhaltung der Rangfolge der Personen: Wird diese bei beiden Messungen eingehalten, ist der Test reliabel. Aber wie gesagt: Für das Alltagsverständnis reicht die obige Definition.

Normierung

Normierung bedeutet, dass der erreichte Testwert einer Person nie losgelöst betrachtet wird, sondern immer mit einer repräsentativen Normierungsstichprobe verglichen wird. Diese besteht aus Personen, die der getesteten Person bezüglich Alter und Geschlecht ähnlich sind. Dazu berechnet man den Abstand zwischen dem Testwert der Person und dem Mittelwert der Normierungsstichprobe. Ein Beispiel: Der neunjährige Theo erreicht in einem Intelligenztest eine Punktzahl von 144, insgesamt sind in dem Test 220 Punkt zu erreichen. Achtung – das ist der Rohwert, nicht der IQ-Wert. Der ergibt sich erst durch weitere Berechnungen, bei der Theos Punktzahl, die durchschnittliche Punktzahl in der Normierungsstichprobe der neunjährigen Jungen und die durchschnittliche Abweichung von dieser Durchschnittspunktzahl (die Standardabweichung) mit einbezogen werden. So erhält man IQ-Werte, die so standardisiert sind, dass der Mittelwert 100 beträgt und die Standardabweichung 15. Weil bei diesen Umrechnungsprozessen dividiert wird, spricht man vom Intelligenzquotienten. Da IQ-Werte daher keine festen, sondern relative Werte darstellen, ist unbedingt zu beachten, mit welcher Normierungsstichprobe jemand verglichen wird: So kann ein Gymnasiast beim Vergleich mit einer Stichprobe aus der breiten Normalbevölkerung einen IQ von 130 aufweisen (wäre demnach also “hochbegabt”), im Vergleich mit anderen Gymnasiasten wäre er hingegen nicht so weit über dem Mittel und hätte einen IQ von 115.

Validität

Dieses vierte Kriterium bedeutet “Gültigkeit”. Ein Test besitzt Validität bzw. ist valide, wenn er tatsächlich misst, was er zu messen vorgibt. Wenn es dabei um ja/nein-Entscheidungen geht (z.B. bei der Frage, ob jemand lügt oder nicht), kann man die Validität damit bestimmen, wie oft der Test eine korrekte Aussage liefert (d.h. jemand lügt, und der Test sagt auch, dass die Person lügt – oder die Person lügt nicht, und der Test sagt auch, dass die Person nicht lügt), und wie oft er daneben liegt (Die Person lügt nicht, aber der Test besagt, dass sie lügt – und andersrum).Wenn der Test jedoch ein Merkmal messen soll, welches nicht nur zwei Kategorien hat (z.B. Intelligenz), dann betrachtet man, wie der Testwert mit anderen Merkmalen zusammenhängt. Hierzu betrachtet man die Korrelation (abgekürzt durch den Buchstaben “r”), das heißt den linearen Zusammenhang von Testwert und einem anderen Wert. Auch die Korrelation variiert zwischen 0 und 1, während 1 für einen perfekten Zusammenhang zwischen zwei Merkmalen steht.

Das unten stehende Foto zeigt als Beispiel die (hypothetische, nicht realitätsgetreue) Korrelation zwischen der Abiturdurchschnittsnote und dem Ergebnis in einem Intelligenztest. Diese beträgt hier 0,5, was in Bezug auf Validität ein sehr hoher Wert ist. Wenn man die Validität eines Tests bestimmt, ist es wichtig, dass der Testwert einen eindeutigen Zusammenhang mit verwandten Merkmalen aufweist (bei Intelligenz wären dies z.B. Schulleistung oder die Leistung in anderen Intelligenztests). Dieser Zusammenhang muss und kann aber gar nicht perfekt ( = 1) sein, weil sämtliche Merkmale (wie Schulleistung) noch durch viele andere Faktoren bestimmt werden. Die Validität eines Tests bestimmt man dabei nie nur durch die Korrelation mit einem anderen Merkmal, sondern immer mit mehreren. Validitäten von 0,3 sind dabei schon als zufriedenstellend, welche über 0,5 bereits als sehr hoch einzustufen.

Hier habe ich einmal aufgemalt, was man sich unter einer Korrelation vorzustellen hat. Die grünen Kreuze stehen alle für jeweils eine Person, von der sowohl das Ergebnis aus einem Intelligenztest (in IQ-Werten, auf der x-Achse) und die Abiturdurchschnittsnote (auf der y-Achse) vorliegen. Diese “Wolke” von Datenpunkten (bzw. –kreuzen) zeigt einen klaren Trend von links unten nach rechts oben, der durch die rote Linie verdeutlicht wird. Das heißt, im Mittel gehen höhere IQ-Werte mit besseren Noten einher, aber natürlich gibt es auch Ausnahmen. Bei einer Korrelation von 1 lägen alle Datenpunkte auf der roten Linie – das würde bedeuten, dass Abinote und Intelligenz in einem perfekten Zusammenhang zueinander stehen und dass das eine linear (d.h. in Form einer Geraden wie der roten Linie) mit dem anderen ansteigt. Bei einem Zusammenhang von r = 0 wäre der gesamte Raum innerhalb des Graphen hingegen gleichmäßig mit Kreuzchen ausgefüllt, es wäre kein Trend in irgendeine Richtung und somit kein Zusammenhang der beiden Merkmale zu erkennen.
Auch die Reliabilität ist übrigens ein Korrelationswert. Hier würde man auf der x-Achse die Testwerte aus der ersten Durchführung abtragen und auf der y-Achse die der zweiten Durchführung. Hierbei würden die grünen Kreuzchen viel näher an der roten Linie liegen als hier im Foto, weil der Zusammenhang viel größer ist (meistens mindestens r = 0,7).

Fiktive Korrelation zwischen Intelligenzquotient und Abiturnote
Fiktive Korrelation zwischen Intelligenzquotient und Abiturnote

Die Validität ist dasjenige Kriterium, das hauptsächlich darüber entscheidet, ob es sich um einen “echten” psychologischen Test handelt oder nicht. Im zweiten und dritten Teil werde ich ein paar Beispiele für valide und nicht valide Tests geben.

© Christian Rupp 2013