Flug 4U9525: Hypothesen im Hinblick auf das scheinbar Unerklärliche

Auch wenn es ein ebenso trauriger wie tragischer Anlass ist, habe ich mich entschieden, den Absturz von Flug 4U9525 zum Anlass für einen neuen Blogartikel zu nehmen, nachdem über ein halbes Jahr berufsbedingte Funkstille herrschte. Dazu bewogen haben mich letztendlich die mehr als fragwürdigen Umstände, die gemäß der gestern veröffentlichten Ermittlungen zu dem Unglück geführt haben, und die damit verbundene Fassungslosigkeit bezüglich des Verhaltens des Copiloten.

Wie wir nun wissen, hat sehr wahrscheinlich der Copilot den Absturz der Maschine bewusst und vermutlich auch absichtlich herbeigeführt. Mit anderen Worten: Im Raum steht derzeit der begründete Verdacht, dass der Copilot sich selbst suizidiert und damit rund 150 unbeteiligte Menschen mit in den Tod gerissen hat. Dies ist für alle Beteiligten – und dabei beziehe ich mich neben den Angehörigen der Passagiere und Crewmitglieder auch auf die Familie des Copiloten – ein nur schwer nachzuvollziehender und noch schwerer zu akzeptierender Umstand, erzeugt er doch ein ungeheures Maß an Wut und Hilflosigkeit. Und hiermit verbunden ist (und auch dies ist absolut verständlich) immer auch relativ automatisch die Frage „Wie konnte so etwas passieren?“. Bei der großen Mehrzahl der Flugzeugunglücke richtet sich diese Frage auf technische Defizite, Sicherheitslücken und ggf. menschliches Versagen. Doch im Falle von Flug 4U9525 ist es anders: Hier richtet sich die Frage eher in die Richtung der fragwürdigen psychischen Verfassung des Copiloten, und ziemlich schnell wurden in den Medien auch die psychologischen Tests der Lufthansa aufs Korn genommen, die alle angehenden Piloten durchlaufen und bestehen müssen.

Typischerweise beinhalten diese Tests die Erfassung zentraler für die Tätigkeit als Pilot relevanten Persönlichkeitsmerkmale wie z.B. Stressresistenz, Gewissenhaftigkeit oder auch allgemeine Intelligenz. In der Tat hat insbesondere das Auswahlverfahren der Lufthansa einen sehr guten Ruf, und die Tatsache, dass möglicherweise nun erstmalig ein Kandidat „durchs Raster gefallen“ ist, spricht im Grunde eher für als gegen das psychologische Testverfahren, da es bisher offenbar ziemlich verlässlich in der Bewerberauswahl war. Dass psychologische Tests jedoch niemals eine 100% sichere Vorhersage über das spätere Verhalten eines Bewerbers machen können, liegt zum einen in den Eigenschaften psychologischer Tests per se begründet (hier und hier nachzulesen), zum anderen aber natürlich auch darin, dass sich Menschen im Laufe der Zeit verändern, wobei zum Zeitpunkt der psychologischen Untersuchung keinerlei Vorboten für solche (z.B. charakterlichen) Veränderungen erkennbar sein müssen. Doch was wären nun – auf Basis des aktuellen Erkenntnisstands – mögliche psychologische Erklärungen für das für die meisten so derart unfassbare Verhalten des Copiloten? Ich habe mir hierüber einige Gedanken gemacht und würde gerne einige Möglichkeiten näher erläutern. Bei den folgenden Darstellungen möchte ich allerdings noch einmal betonen, dass es sich hierbei um Erklärungsansätze handelt, die auf der Annahme beruhen, dass Ursache des Unglücks tatsächlich kein technisches Versagen, sondern die intentionale Handlung einer einzelnen Person war, die wiederum nicht im klassischen Sinne terroristisch motiviert war.

Möglichkeit 1: Psychose & Depression

Eine mögliche Erklärung für das durchaus „wahnsinnig“ anmutende Verhalten des Copiloten, ist, dass er tatsächlich unter einer akuten psychotischen Erkrankung wie der Schizophrenie oder aber einem verwandten Störungsbild wie beispielsweise einer schizoaffektiven oder einer wahnhaften Störung litt. Kennzeichnend für diese Gruppe von Störungsbildern sind im Wesentlichen der Verlust des Realitätsbezugs im Sinne einer Verkennung der Realität (Wahn) sowie Halluzinationen, die alle fünf Sinneskanäle betreffen können. Typisch für letzteres ist das Hören von Stimmen, die beispielsweise bestimmte Befehle erteilen. In Bezug auf Flug 4U9525 wäre also eine mögliche Erklärung für das Verhalten des Copiloten, dass er aufgrund eines akuten Wahns (Überzeugung, aus irgendeinem Grund das Flugzeug abstürzen lassen zu müssen) oder aufgrund von Stimmen, die ihm ebendies befohlen haben, entsprechend handelte. Hierdurch ließe sich auf jeden Fall das aus unseren Augen verantwortungslose Handeln erklären, da im Rahmen eines akuten psychotischen Zustands ein Hinterfragen der Wahninhalte und der Halluzinationen unmöglich wird – und somit auch die Übernahme einer anderen Perspektive wie z.B. der der Passagiere.

Es gibt jedoch mehrere Aspekte, die gegen diese Hypothese sprechen. Es gibt zwar den seltenen Fall, dass eine Schizophrenie oder eine wahnhafte Störung plötzlich und ohne „Vorwarnung“ (so genannte Prodromalsymptome) auftritt, doch es wäre dennoch mehr als ungewöhnlich. Denkbar wäre hier ggf. noch eine auf organische Ursachen (akute Erkrankungen des Gehirns wie z.B. eine Gehirnblutung) zurückgehende Psychose, jedoch sind auch diese vergleichsweise selten. Zudem gehen psychotische Erkrankungen in der Regel mit einer ziemlich allumfassenden Störung kognitiver Funktionen einher, d.h. mit zumeist derart starken Konzentrations- und Auffassungsstörungen, dass es eher unwahrscheinlich erscheint, dass ein solcher Zustand unbemerkt bleibt und ein Copilot so ins Cockpit gelangt. Dagegen spricht ferner das Alter des Copiloten, der meines Wissens nach 28 Jahre alt war – denn das typische Ersterkrankungsalter für psychotische Störungen liegt bei Männern ca. im Bereich zwischen dem 19. und 24. Lebensjahr. Auch für die Möglichkeit einer schweren Depression, die oft mit Suizidgedanken, -impulsen und -handlungen einhergeht, spricht aus meiner Sicht eher wenig, da auch diese in der Regel mit derart starken Symptomen wie Antriebsminderung und Konzentrationsschwäche einhergeht, dass das Ausüben des Pilotenberufs unmöglich wird. Zudem sind bei (reinen) Depressionen derart appellative Suizide (Erläuterung siehe unten) eher untypisch. Ähnliches gilt für den Fall, dass der Entschluss zum Suizid durch die Diagnose einer schweren und ggf. tödlich verlaufenden Erkrankung getroffen wird: Auch hier wäre es bei Vorliegen einer „gesunden“ Persönlichkeitsstruktur eher sehr ungewöhnlich, dass Unbeteiligte mit in den Tod gerissen werden.

Möglichkeit 2: Persönlichkeitsstörung

Die andere mögliche (psychologische) Erklärung für das Verhalten des Copiloten wäre, dass er an einer Persönlichkeitsstörung litt. Hierbei handelt es sich um tiefgreifende Störungen des menschlichen Interaktionsverhaltens vor dem Hintergrund einer extremen Ausprägung bestimmter Persönlichkeitsmerkmale, die in der Regel zu massiven Problemen zwischen der betroffenen Person und ihrer Umwelt führen (daher auch der eigentlich passendere Begriff der Beziehungsstörung). Kennzeichnend ist hierbei, dass Betroffene selbst eine Persönlichkeitsstörung meistens nicht als das eigentliche Problem sehen (man sagt daher, eine Persönlichkeitsstörung ist ich-synton) – in der Regel sehen Betroffene daher vorrangig die Schuld für ihre interaktionellen Probleme bei den Menschen in ihrer Umwelt.

Nun gibt es eine ganze Reihe verschiedener Persönlichkeitsstörungen, die sich am ehesten anhand des jeweiligen zwischenmenschlichen Motivs (bzw. Bedürfnisses) unterscheiden lassen, das die Betroffenen auf exzessive Weise und unter Anwendung problematischer Verhaltensweisen (z.B. Lügen, Manipulation, etc.) versuchen zu befriedigen. So könnte man z.B. sagen, dass bei der dependenten Persönlichkeitsstörung das Bedürfnis nach zwischenmenschlicher Nähe und bei der zwanghaften Persönlichkeitsstörung dasjenige nach Sicherheit und Verbindlichkeit in jeweils extremer Weise realisiert werden, wobei das, was die Störung zur Störung macht, die wachsenden negativen Konsequenzen und Einschränkungen sind, die die Person dadurch erleidet – und die (wenn überhaupt) meist den eigentlichen Grund für das Aufsuchen einer Behandlung darstellen.

Auf Basis der mir bekannten Umstände bzgl. des Absturzes der Germanwings-Maschine kämen aus meiner Sicht drei Persönlichkeitsstörungen in Frage. Zum einen ließe sich derart verantwortungsloses und im Grunde aggressives Verhalten durch eine antisoziale Persönlichkeitsstörung erklären, die u.a. auch durch einen Mangel an Empathie und Mitgefühl für die Opfer gekennzeichnet ist. Dagegen spricht allerdings erstens, dass Menschen mit antisozialer Persönlichkeitsstruktur in der Regel kaum einen Bildungsweg absolvieren, der schließlich zum Beruf des Piloten führt, und dass derartige Verhaltens- und Denkmuster in einer psychologischen Testung wie der der Lufthansa sehr wahrscheinlich aufgefallen wären. Zweitens spricht dagegen, dass Menschen mit antisozialer Persönlichkeitsstruktur zwar typischerweise anderen Menschen Schaden zufügen, jedoch kaum sich selbst, d.h. eher nicht den eigenen Tod mit in Kauf nehmen würden. In Frage käme darüber hinaus außerdem eine emotional-instabile Persönlichkeitsstörung (besser bekannt als Borderline-Störung), die durch eine Instabilität der Emotionen, Beziehungen und des Selbstbilds gekennzeichnet ist und mit Selbstverletzungen und Suizidversuchen einhergeht, die häufig appellativen Charakter haben, d.h. auf dramatische Weise die eigene Hilfsbedürftigkeit deutlich machen sollen. Hierzu würde zwar die Gestaltung des vermeintlichen Suizids des Copiloten passen, jedoch spricht hiergegen, dass Menschen mit emotional-instabiler Persönlichkeitsstörung selten in der Lage sind, ein so geordnetes Leben zu führen, dass sie eine Pilotenlaufbahn einschlagen und beibehalten können.

Hypothese: Appellativer Suizid nach narzisstischer Kränkung

Für die wahrscheinlichste Antwort auf die psychologische Frage nach dem „Warum“ halte ich eine narzisstische Persönlichkeitsstörung. Das zentrale zwischenmenschliche Motiv, um das sich Menschen mit dieser Art von Persönlichkeitsstörung unablässlich drehen, ist das nach Anerkennung und Bewunderung. Wie der bekannte Psychotherapeut Rainer Sachse herausstellte, ist das, worunter diese Menschen im Grunde leiden, ein unauflöslicher Konflikt zwischen einem sehr negativen Selbstkonzept („Ich bin ein inkompetenter Versager, der zu nichts in der Lage ist“) und einem übermäßig positiven Selbstkonzept („Ich bin sowieso der Beste, alle anderen sind nur neidisch auf mich“), das der Betroffene entwickelt, um das negative Selbstkonzept zu kompensieren. Dadurch – und vor dem Hintergrund des riesigen Bedürfnisses nach Bewunderung – erklären sich viele Verhaltensweisen von Narzissten. In der Regel haben sie eine Reihe von Größenphantasien im Kopf, die sich nicht selten darum drehen, wie sie im Mittelpunkt einer großen Menschenmenge stehen und als Gewinner  gefeiert werden. Menschen mit narzisstischer Persönlichkeitsstörung sind zudem meist äußerst wettkampforientiert und stabilisieren ihr positives Selbstkonzept häufig, indem sie andere Menschen massiv abwerten („Der kann doch nichts, der ist völlig inkompetent, der kann mir doch nie das Wasser reichen“). Kennzeichnend ist zudem ein Mangel an emotionaler Empathie (d.h. Narzissten können sich emotionale Zustände rational gut erschließen, emotional fühlen sie jedoch kaum mit) und eine damit zusammenhängende Tendenz zu manipulativem Verhalten, das letztendlich immer darauf abzielt, sich selbst in ein gutes Licht – und möglichst auch in den Mittelpunkt der kollektiven Aufmerksamkeit zu rücken. Vielleicht hat jetzt der ein oder andere Leser ein gewisses Aha-Erlebnis, weil er nun einen Begriff für manch eine Person hat, die ihn stets zur Weißglut treibt.

Das, was Menschen mit narzisstischer Persönlichkeitsstörung bisweilen unberechenbar und daher auch in einem gewissen Maß gefährlich macht, ist das, was passiert, wenn das positive Selbstbild durch Ereignisse in der Umwelt ins Wanken gebracht und das negative aktiviert wird – ein Prozess, der auch als narzisstische Kränkung bezeichnet wird. Diese kann aus unbeteiligter Sicht durch relative Lappalien ausgelöst werden, etwa durch eine vergleichsweise harmlose Kritik seitens eines Vorgesetzten, oder aber durch größere Einschnitte wie eine Kündigung oder eine vom Partner ausgesprochene Trennung. Nicht selten geraten Narzissten in diesem Moment wahrhaftig außer Kontrolle und versuchen, die Kränkung durch hasserfüllte Abwertung der Umwelt („Wie konnte das Miststück mir das nur antun?!“) und das Üben von Rache zu kompensieren. Letzteres ist das gefährlichste, denn Rache im Sinne eines Narzissten bedeutet, der Umwelt (und hierbei wird der Hass oft von der eigentlich verursachenden Person auf andere Menschen ausgeweitet) in dem Maße „wehzutun“, wie diese (in der subjektiven Sicht der gekränkten Person) auch ihm „wehgetan“ hat. Mit anderen Worten: Es ist möglich, dass ein derart gestrickter Mensch nach einer Kränkungserfahrung eine derartige Wut und einen solch ausgeprägten Hass entwickelt, dass diese sich schnell auf die gesamte Umwelt ausweiten („Die denken doch alle, sie könnten mit mir machen, was sie wollen – aber da haben die sich geschnitten“) und ein großes Bedürfnis nach Rache entsteht. Und eben diese Konstellation kann das zur Folge haben, was (wie oben schon angerissen) auch als appellativer oder demonstrativer Suizid bezeichnet wird – womit wir es übrigens auch häufig bei Amokläufen zu tun haben, denen nicht selten ebenfalls eine massive Kränkung des Täters vorausgeht, z.B. durch Mobbing. Werden (wie wahrscheinlich im Fall von Flug 4U9525) unbeteiligte Personen mit hineingezogen, spricht man zudem auch vom erweiterten Suizid oder vom Mitnahmesuizid.

Ein solcher appellativer Suizid beruht meist auf zwei Annahmen: Erstens, dass die gekränkte Person durch einen derart Aufmerksamkeit erregenden Tod der Welt „einen Denkzettel verpassen“ kann, da dieser somit vor Augen geführt wird, was sie der Person alles „angetan“ hat – und zweitens, dass sie durch das Mitreißen von im Grunde unbeteiligten Menschen zumindest zum Teil „Rache an der Menschheit“ nehmen kann, die sich gemäß der Wahrnehmung der gekränkten Person kollektiv gegen sie gerichtet hat. Mir ist bewusst, dass derartige Gedankengänge sehr erschreckend und beängstigend wirken können; dennoch sind sie ebenso Teil der Realität wie die Menschen, zu denen sie gehören. Das Gefährliche hieran ist dabei leider auch, dass Menschen mit narzisstischer Persönlichkeitsstörung häufig sehr gut darin sind, derartige Denkmuster zu verbergen, und sich oft nach außen hin sehr adäquat verhalten, was erklären könnte, dass entsprechende Persönlichkeitsmerkmale selbst in psychologischen Untersuchungen mitunter unentdeckt bleiben. Zudem ist es anders als bei den anderen beiden diskutierten Persönlichkeitsstörungen so, dass Betroffene in der Regel einen hohen Bildungserfolg aufweisen und so z.B. auch Zugang einer Pilotenausbildung erhalten.

Korrekterweise muss ich an dieser Stelle herausstellen, dass es sich bei dem, was ich im vergangenen Abschnitt beschrieben habe, um eine Extremform der narzisstischen Persönlichkeitsstörung handelt, die in der Mehrzahl der Fälle nicht zu derarzt verheerenden Handlungen führt wie soeben beschrieben. In Bezug auf das aktuelle Flugzeugunglück ist hierdurch jedoch eine mögliche Erklärung für das Verhalten des Copiloten von Flug 4U9525 gegeben, die mir auf Basis des aktuellen Erkenntnisstands und meines psychologischen Wissens zumindest plausibel erscheint. Ich erhebe dabei nicht den Anspruch, hiermit die richtige Erklärung gefunden zu haben. Mein Hauptanliegen hierbei ist, die Fassungslosigkeit der Menschen aufzugreifen und deutlich zu machen, wie es tatsächlich doch dazu kommen kann, dass Menschen in einer Art und Weise handeln, wie sie für die meisten von uns völlig unverständlich – und durchaus auch beängstigend ist.

 © Christian Rupp 2015

Intelligenz – Teil 4: Was messen IQ-Tests und worin besteht ihre Berechtigung?

Nachdem es in Teil 3 darum ging, wie sich der so genannte „IQ“ berechnet und wie er zu interpretieren ist, widmet dieser Artikel sich der Frage: Wie lässt sich Intelligenz messen? Und messen Intelligenztests tatsächlich Intelligenz?

Die verschiedenen Arten von Intelligenztests lassen sich ganz grob in zwei Gruppen einteilen. Anhand ihrer Verbreitung und Etabliertheit habe ich diese zwei Kategorien einmal „untypisch“ und „typisch“ getauft.

„Untypische“ Vertreter

In diese Kategorie fallen zu allererst einmal die so genannten elementaren kognitiven Aufgaben (kurz EKAs). Hierbei handelt es sich um eine Reihe relativ einfacher Aufgaben, z.B. die Identifikation von präsentierten Reizen (Kreis oder Quadrat?), die Unterscheidung von Reizen (Welcher der zwei Töne ist höher?) oder die Erinnerungsleistung in Kurzzeitgedächtnisaufgaben (z.B. maximale Zahl von Zahlen, die jemand, unmittelbar nachdem er sie gehört hat, in derselben Reihenfolge wiedergeben kann). Die Variablen, die hier als Maß für Intelligenz herangezogen werden, sind unter anderem die Reaktionszeit, die so genannte inspection time (Zeit, die jemand benötigt, um z.B. zu sagen, welche von zwei Linien länger ist) oder aber auch mit dem EEG gemessene ereigniskorrelierte Potenziale, wobei die Dauer bis zum Auftreten des Pozentials im EEG (die so genannte Latenz) als Maß für die Verarbeitungsgeschwindigkeit herangezogen wird, die wiederum Intelligenz widerspiegeln soll. Zur Validität der EKAs (also der Frage, in wiefern diese tatsächlich Intelligenz messen), liegen divergierende Befunde vor. Untersucht wurde diese Fragestellung, indem der lineare Zusammenhang (die Korrelation) zwischen der Leistung in EKAs und der Leistung in „typischen“ Intelligenztests berechnet wurde. Diese Korrelation allerdings schwankt in den verschiedenen Studien zwischen 0,35 und 0,70 – mit anderen Worten: Der Zusammenhang ist nicht bombig, und es ist wenig naheliegend, die Leistung in EKAs als alleinigen Indikator für Intelligenz zu betrachten. Ähnliches gilt für die Gehirngröße (gemessen z.B. per MRT bei lebenden oder aber direkt am Objekt  bei toten Menschen), die laut einer Metaanalyse von McDaniel (2005) eine Korrelation von 0,33 mit der Leistung in typischen Intelligenztests aufweist. Dass hier kein so besonders großer Zusammenhang besteht, ist wenig verwunderlich, wenn man bedenkt, dass die Art der synaptischen Vernetzung in unserem Gehirn sehr viel wichtiger für die reibungslose Verarbeitung von Informationen ist als dessen einfaches Volumen.

Zweitens wären da eine Reihe von Tests, die offenkundig „typischen“ Vertretern ähneln, sich aber dadurch von diesen unterscheiden, dass sie den Generalfaktor g ablehnen, d.h. nicht von einem, allen Facetten übergeordneten allgemeinen Intelligenzfaktor ausgehen, sondern von mehreren voneinander unabhängigen Faktoren. In der Tat stellen die von diesen Tests postulierten Faktoren meist elementare kognitive Funktionen (ähnlich den EKAs) dar – und keine Intelligenzkomponenten, wie in den in Teil 2 beschriebenen Modellen aufgeführt. In diese Kategorie fallen z.B. das Cognitive Assessment System (CAS) und die Kaufman-Tests (z.B. das „K-ABC“). Während das CAS u.a. die Faktoren Planung (Strategien zur Problemlösung entwickeln) und Simultanität (getrennte Objekte zu etwas Ganzem integrieren) erfasst, unterscheidet das K-ABC zwischen erworbenen Fertigkeiten (Rechnen und Schreiben), simultaner Verarbeitung (Matrizen-Aufgaben der Sorte „Welches Bild ergänzt das Muster?“) und sequenzieller Verarbeitung (z.B. Zahlen nachsprechen). Wichtig beim K-ABC: Nur diese letzten zwei Faktoren sollen die kognitive Leistungsfähigkeit widerspiegeln; erworbene Fähigkeiten werden isoliert hiervon betrachtet.

„Typische“ Vertreter

Zu den typischen Vertretern gehören alle psychometrischen Tests, d.h. solche, die in der Regel auf einem bestimmten Intelligenzmodell (siehe Teil 2) basieren, eine Reihe verschiedener Aufgabentypen beinhalten, die normiert sind (damit die Leistung der getesten Person mit der von hinsichtlich Alter und Geschlecht ähnlichen Personen verglichen werden kann) und (das ist zentral) deren Gütekriterien (Objektivität, Reliabilität, Validität) überprüft wurden und als gesichert gelten.

Die meisten dieser Tests basieren auf Modellen, die einen g-Faktor annehmen, und ermöglichen daher auch die Berechnung eines allgemeinen Intelligenzquotienten. Ein Beispiel hierfür sind die Wechsler-Intelligenztests, z.B. der WIE (Wechsler-Intelligenztest für Erwachsene) oder der HAWIK-IV (Hamburg-Wechsler-Intelligenztest für Kinder, 4. Auflage). In den Wechsler-Tests gibt es u.a. die typischen Aufgabenbereiche Allgemeines Wissen, Finden von Gemeinsamkeiten, Matrizen ergänzen, Mosaike legen, Zahlen nachsprechen (vorwärts und rückwärts) und Kopfrechnen. Während die Wechsler-Tests sowohl die Berechnung der allgemeinen Intelligenz als auch verschiedener Unterfacetten ermöglichen, erlauben die so genannten Raven-Tests, die ausschließlich aus Matrizenaufgaben bestehen, nur die Berechnung eines allgemeinen IQs. Der Intelligenzstruktur-Tests (IST-2000-R), der auf dem Modell von Thurstone basiert, ermöglicht hingegen nur die Berechnung von IQ-Werten für die Bereiche schlussfolgerndes Denken (verbal, figural und numerisch) und Merkfähigkeit (verbal und figural). Zusätzlich gibt es einen Wissenstest, der aber nicht obligatorisch ist und am ehesten kristalline Intelligenz widerspiegelt.

Wozu das ganze? Der Sinn der Intelligenzmessung.

Nun kann man sich fragen, was es einem bringt, die Intelligenz einen Menschen (bzw. das, was diese ganzen Tests vorgeben, zu messen) zu erfassen. Die selbstwertregulierende Funktion liegt auf der Hand (es ist natürlich schön, von sich sagen zu können, dass man intelligenter als 99% der restlichen Menschheit ist), aber das ist zum Glück nicht alles.

Diagnostik von Intelligenzminderung & Hochbegabung

In der Tat sind Intelligenztests ein extrem wichtiges diagnostisches Instrument, das in vielen Bereichen zum Einsatz kommt. Im Bereich der pädagogischen Psychologie sind da z.B. die Diagnostik von Teilleistungsstörungen wie Lesestörungen, Rechtschreibstörungen und Dyskalkulie (Rechenstörung) zu nennen, zu deren Diagnose nämlich die Leistung im jeweils beeinträchtigten Bereich mindestens zwei Standardabweichungen (also deutlich) unterhalb der allgemeinen Intelligenz liegen müssen (um auszuschließen, dass es sich um eine generelle Intelligenzminderung oder gar eine geistige Behinderung handelt). Aber auch am anderen Ende der Skala ergibt sich ein wichtiges Anwendungsfeld: die Hochbegabtendiagnostik. Die ist deshalb so wichtig, weil es bei solchen Kindern von großer Bedeutung ist, diese hohe Intelligenz zu fördern, um Unterforderungserleben zu verhindern, das sonst leicht zu Problemen führen kann (z.B. weil das Kind den Unterricht stört oder sich zurückzieht). Vielleicht denken Sie hierbei auch gleichzeitig an die Diagnose einer ADHS. Das ist völlig richtig, denn auch zu dieser Diagnose muss eine Hochbegabung (genauso wie eine geistige Behinderung) als Ursache des unangepassten Verhaltens des Kindes ausgeschlossen werden.

Bewerberauswahl und Vorhersage des Schulerfolgs

Die weiteren Anwendungsgebiete von Intelligenztests ergeben sich aus der breitgefächerten prädiktiven Validität von Intelligenztests, d.h. aus der Tatsache, dass sich durch die Intelligenzleistung zu einem bestimmten Zeitpunkt bestimmte andere Variablen ziemlich gut vorhersagen lassen. So zeigte z.B. eine Metaanalyse von Schmidt und Hunter aus dem Jahr 1998, dass die allgemeine Intelligenz zu 0,54 mit dem späteren Arbeitserfolg bzw. der beruflichen Leistung korrelierte – damit sind Intelligenztests diejenige Methode mit der besten Vorhersagekraft für Berufserfolg. Trotz dieser Erkenntnis bevorzugen die meisten Unternehmen bei der Bewerberauswahl jedoch die sehr viel teureren Assessment-Center, wobei die Argumente hierfür denkbar schwach sind: Die Leistung in diesen korreliert nämlich im Mittel nur zu 0,37 mit späterem Berufserfolg. Ähnliche Korrelationen ergeben sich für die Beziehung von Intelligenz und Schulerfolg, gemessen z.B. durch die Schulnote. Diese schwanken nach Deary und Kollegen (2007) zwischen 0,43 im Fach Kunst und 0,77 im Fach Mathematik (und das ist in der Psychologie eine wirklich verdammt hohe Korrelation). Als Anwendungsfeld ergibt sich hierbei z.B. die Verteilung von Kindern auf verschiedene Schulformen, um eine jeweils optimale Förderung zu ermöglichen.

Von Haftstrafen bis Krebs

Die Vorhersagekraft der allgemeinen Intelligenz ist jedoch noch sehr viel größer. Eine große Zahl von Längsschnittstudien (d.h. solchen, die z.B. in der Kindheit den IQ messen und dann über die folgenden 20 Jahre weitere Variablen erfassen) wurde zu diesem Thema durchgeführt und führte zu verblüffenden Ergebnissen. So zeigte sich, dass mit steigendem IQ das Risiko für Arbeitslosigkeit und Armut abnimmt, ebenso wie für Scheidungen und Haftstrafen. Zudem ergab sich, dass sogar Krebsdiagnosen umso unwahrscheinlicher sind, je intelligenter der Mensch ist. Bei vielen dieser Zusammenhänge gibt es sehr wahrscheinlich so genannte vermittelnde Variablen, d.h. solche, die den Zusammenhang zwischen IQ und der jeweils anderen Variable erklären. So ist der Zusammenhang mit Arbeitslosigkeit und Armut sicherlich darauf zurückzuführen, dass ein höherer IQ höhere Bildungsabschlüsse ermöglicht, die dann wiederum das Risiko für Arbeitslosigkeit und Verarmung reduzieren. Ähnliches gilt für den Fall der Krebsdiagnosen: Menschen mit höherem IQ haben in der Regel einen gesünderen Lebensstil (trinken z.B. weniger Alkohol und rauchen nicht), was dann wiederum das Krebsrisiko niedrig hält.

Messen Intelligenztests wirklich Intelligenz?

Hier bewegen wir uns auf die Frage nach der Validität dieser Tests zu. Um die Frage aus der Überschrift zu beantworten, müssen wir jedoch verschiedene Aspekte des Konstrukts „Validität“ auseinander halten. Zunächst kann man davon ausgehen, dass bei Intelligenztests im Allgemeinen die Augenscheinvalidität (auch Inhaltsvalidität genannt) gegeben ist. Diese bezieht sich allerdings nur auf die einzelnen Untertests und meint nicht mehr, als dass die Aufgaben offenbar das erfassen, was sie vorgeben zu erfassen – z.B. dass man bei Rechenaufgaben rechnen muss, dass Wortschatzaufgaben die Größe des Wortschatzes erfassen, etc. Allerdings muss man zugeben, dass diese Inhaltsvalidität bei komplexeren Aufgaben wie Matrizenergänzungen durchaus nicht so einfach zu beurteilen ist, weil die Frage nach den Prozessen, die zur Lösung der Aufgaben bewältigt werden müssen, so groß ist, dass sie ein eigenes Forschungsfeld darstellt.

Wenn man jedoch den gesamten Test heranzieht und sich fragt, ob dieser das Konstrukt „Intelligenz“ misst, ist die Antwort schon weniger eindeutig. Dafür, dass zumindest die meisten Intelligenztests annähernd dasselbe messen, sprechen die ziemlich hohen Korrelationen zwischen den Ergebnissen derselben Person in verschiedenen Intelligenztests. Dies bezeichnet man auch als diagnostische Validität. Und dafür, dass mit diesen Tests offenbar etwas gemessen wird, das Auswirkungen auf extrem viele andere Lebensbereiche (Berufserfolg, Gesundheit, etc.) hat, liegen ebenfalls zahlreiche Belege vor (prädiktive Validität). Mit anderen Worten: Irgendetwas muss ganz offensichtlich dran sein an diesem Konstrukt.

Es gibt aber natürlich auch jede Menge Kritik an der gesamten Intelligenzmessung. An dieser Stelle sei noch einmal deutlich betont, dass es sich, wie in Teil 1 beschrieben, bei Intelligenz lediglich um ein Konstrukt handelt – und nicht um eine vom Himmel gefallene und unumstößlich definierte Begebenheit. So wird von Kritikern z.B. eingeworfen, dass klassische Intelligenztests viele Aspekte gar nicht berücksichtigen, z.B. sozio-emotionale Kompetenzen. Zudem wird häufig angemerkt, dass Intelligenz auch die Aneignung von Fertigkeiten und Wissen im kulturellen Kontext bedeutet – was die Tests allesamt nicht erfassen.

Letztendlich handelt es sich bei der Frage, was Intelligenztests messen, also um eine, die die Wissenschaft nie endgültig wird beantworten können, weil dies unmöglich ist. Man kann als Fazit allerdings zweierlei festhalten: Dass Intelligenztests das messen, was sie vorgeben zu messen, scheint auf Basis der Befunde zur Inhalts-, diagnostischen und prädiktiven Validität sehr wahrscheinlich – ebenso wie dass dieses Konstrukt, wie auch immer man es nennen mag, offenbar große Auswirkungen auf unser Leben hat. Ob diese Tests aber tatsächlich Intelligenz messen, lässt sich nicht beantworten, da es sich hierbei um ein höchst unterschiedlich definiertes Konstrukt handelt.

Bleibt der IQ immer gleich? Die Frage nach der Stabilität.

Auch diese Frage hat wiederum zwei Facetten. Die erste ist die Frage, ob Intelligenztests zuverlässig messen, d.h. reliabel sind. Im Wesentlichen ist hiermit die Frage verknüpft, wie genau Intelligenztests messen. Nun, ein psychometrischer Test misst nicht so genau wie eine Waage, das ist klar. Aber die meisten Intelligenztests haben Reliabilitäten von über 0,90, was ziemlich gut ist. Am geläufigsten ist hierbei die so genannte Retest-Reliabilität, d.h. die Frage nach der Übereinstimmung der Testergebnisse, wenn Personen denselben Test zweimal hintereinander bearbeiten. Hierbei muss das Zeitintervall natürlich groß genug sein, um auszuschließen, dass die Person die richtigen Lösungen bei der Bearbeitung lediglich erinnert. Der zeitliche Abstand darf aber auch nicht zu lang sein, da es sonst möglich ist, dass eine große Abweichung der Testwerte darauf zurückgeht, dass die tatsächliche Intelligenzleistung der Person sich verändert hat (was besonders bei Kindern der Fall ist, die einen schnellen Zuwachs verzeichnen).

Die zweite Frage ist die, ob die Intelligenzleistung selbst stabil ist. Hier bietet die Forschungslage erfreulicherweise einen relativ eindeutigen Befund: Obwohl IQ-Werte auch tagesformabhängig sind (logisch, da man sich nicht immer gleich gut konzentrieren kann), sind die Fluktuationen ziemlich gering, und Intelligenz erweist sich insgesamt als ziemlich stabile Eigenschaft. Stabil meint hierbei allerdings nicht, dass immer gleich viele Punkte im selben Test erreicht werden, sondern dass eine Person im Vergleich zur alters- und geschlechtsspezifischen Normstichprobe gleich gut bleibt. Als Beispiel: Natürlich wird ein zehnjähriges Kind im HAWIK mehr Punkte erzielen als mit sechs Jahren, aber es behält trotzdem denselben IQ, weil es bei den beiden Messungen mit unterschiedlichen Normstichproben verglichen wird. Verschiedene Untersuchungen zeigen sogar eine erstaunliche Stabilität des IQ über sehr lange Zeitspannen: So ergab sich in einer Studie von Deary und Kollegen (2000) eine beachtliche Korrelation von 0,77 zwischen den IQ-Werten einer Stichprobe, die zum ersten Mal 1932 und zum zweiten Mal 1995 an demselben Test teilgenommen hatte.

Interessant ist diesbezüglich übrigens der sehr unterschiedliche Verlauf von fluider und kristalliner Intelligenz über die Lebensspanne. Studien aus diesem Bereich zeigen, dass, während die kristalline Intelligenz (im Wesentliches also erworbenes Wissen) im Laufe des Lebens zunimmt bzw. stagniert, die fluide Intelligenz (logisches Denken etc.) abnimmt. Neuere Untersuchungen zeigen jedoch, dass der Rückgang der fluiden Intelligenz auf etwas anderes zurückzuführen ist – nämlich auf die mit dem Alter geringer werdende Erfahrung mit den Aufgabenformaten typischer Intelligenztests, die stark an die von Schulaufgaben angelehnt sind. Insgesamt kann man also sagen: Intelligenz ist ziemlich stabil, aber eben nicht perfekt stabil. Und das liegt maßgeblich daran, dass wir entgegen der weitläufigen Meinung nicht mit einem festgelegten IQ geboren werden – was Thema des fünften Teils der Intelligenz-Reihe sein wird.

 © Christian Rupp 2014

Intelligenz – Teil 3: Warum man nicht nur einen IQ hat und wir lange Zeit immer schlauer wurden

Vorab: Was ist eigentlich „der IQ“?

Der so genannte Intelligenzquotient, kurz IQ, ist im Grunde schon der Schlüssel zu der Art und Weise, wie er berechnet wird – und doch wird diese Tatsache im alltäglichen Sprachgebrauch viel zu selten berücksichtigt. Ursprünglich erfolgte die Berechnung dieses Maßes für menschliche Intelligenz allerdings auf etwas andere Weise als heute. Geprägt wurde der Begriff des Intelligenzquotienten nämlich durch den Psychologen William Stern, der den von Alfred Binet geprägten Begriff des Intelligenzalters aufgriff und weiterentwickelte. Das Intelligenzalter ergibt sich nach Binet, grob gesagt, durch die Summe der gelösten Aufgaben in einem Intelligenztest. Aufschluss über die kognitive Leistungsfähigkeit gibt dann der Vergleich von Intelligenzalter und tatsächlichem Lebensalter: Wenn ein 8-jähriges Kind z.B. deutlich mehr (d.h. schwierigere) Aufgaben löst, als andere 8-jährige Kinder es im Durchschnitt tun, dann könnte sein Intelligenzalter z.B. 9,5 Jahre betragen – mit anderen Worten: Dieses Kind wäre in seiner kognitiven Entwicklung schon überdurchschnittlich weit fortgeschritten. William Stern setzte schließlich diese beiden Größen (also das Lebensalter und das Intelligenzalter nach Binet) einfach ins Verhältnis (bildete also einen Quotienten), multiplizierte sie mit dem Faktor 100 – und schon war der IQ geboren. Für unser Beispiel-Kind ergäbe sich somit ein IQ von (9,5/8)*100 = 118,75 (bzw. 119, da es aufgrund der nicht perfekten Reliabilität von Intelligenztests unüblich ist, IQ-Werte mit Nachkommastellen anzugeben).

Heutzutage berechnet man den IQ nicht mehr auf diese Weise, wenngleich das Grundprinzip der Berechnung erhalten geblieben ist: Weiterhin werden zwei verschiedene Werte miteinander ins Verhältnis gesetzt, weshalb der Begriff „Quotient“ auch heute noch gerechtfertigt ist. Dies ist mit einer ganz wichtigen Tatsache verbunden, die in der Öffentlichkeit und in den Medien leider so oft untergeht: Es gibt nicht den IQ, und es ist keineswegs so, dass ein Mensch genau einen IQ hat. Derartige Aussagen kann man guten Gewissens als Unsinn bezeichnen. In der Tat kann man einer jeden Person unzählige IQ-Werte zuweisen; aber um zu verstehen, warum das so ist, muss man sich vor Augen führen, wie der IQ berechnet wird.

Wie schon gesagt, basiert die IQ-Berechnung auf dem Bilden von Verhältnissen. Was wird nun ins Verhältnis gesetzt? Grob gesagt wird (egal mit welchem Intelligenztest) immer ein Rohwert zu einem bestimmten Mittelwert und einer Standardabweichung gesetzt. Der Rohwert meint meist die Anzahl der in einem Intelligenztest gelösten Aufgaben (was deshalb Sinn macht, weil fast alle diese Tests so aufgebaut sind, dass die Aufgaben im Verlauf immer schwieriger werden). Bei unserem Beispiel-Kind von oben könnten das z.B. 21 von 30 Aufgaben sein. So, dieser Rohwert sagt einem zunächst einmal gar nichts. Um an einen IQ-Wert zu gelangen, braucht man zusätzlich eine Normstichprobe, d.h. eine repräsentative Stichprobe anderer Menschen, mit der man das Kind nun vergleichen kann. Von dieser Normstichprobe braucht man zwei Informationen: den Mittelwert (d.h. die durchschnittliche Zahl der gelösten Aufgaben in dieser Gruppe von Menschen, hier z.B. 18,1) und die Standardabweichung (d.h. die „durchschnittliche“ Abweichung von diesem Mittelwert, z.B. 2,7). Nun muss die Zahl der von unserem Beispiel-Kind gelösten Aufgaben ins Verhältnis zu dieser Normstichprobe gesetzt werden . Hierzu berechnet man zunächst die Differenz zwischen dem Rohwert des Kindes und dem Mittelwert der Normstichprobe: 21-18,1 = 2,9. Dies ist die also die „Abweichung“ unseres Kindes vom Mittelwert der Normstichprobe – und diese muss man nun ins Verhältnis setzen zur „durchschnittlichen Abweichung“ vom Mittelwert der Normstichprobe (also deren Standardabweichung); d.h. man rechnet: 2,9/2,6 = 1,12. Man sagt: Das Kind liegt etwas mehr als eine Standardabweichung über dem Mittelwert der Normstichprobe. Nun fehlt nur noch die Umrechung in IQ-Werte. Hierzu nutzt man die Tatsache, dass IQ-Werte eine Art Maßzahl sind – deren Mittelwert und deren Standardabweichung festgelegt sind. D.h., man kann sie nutzen, um die Ergebnisse unterschiedlichster Tests (die alle andere Skalierungen verwenden), in ein und derselben Metrik anzugeben. Der Mittelwert des IQ ist auf 100 festgelegt, und die Standardabweichung auf einen Wert von 15. Um unserem Kind nun einen IQ-Wert zuweisen zu können, muss man nur noch den Wert 1,12 mit 15 multiplizieren und 100 addieren – und es ergibt sich ein IQ von 116,8 (bzw. 117).

Und schon hat man das, was in der Praxis meist noch in viel gravierender Form auftritt: Die beiden IQ-Werte (119 und 117) sind nicht gleich. Während es in unserem konstruierten Fall natürlich daran liegt, dass ich bei der obigen Berechnung die Werte ins Blaue hinein erfunden habe, liegt es in der Realität an einem anderen Faktor – nämlich an der Frage, welche Normstichprobe ich heranziehe, um die Person, deren IQ ich messen will, mit ihr zu vergleichen. Im Allgemeinen sollte man hierzu immer diejenige Normstichprobe wählen, die der Person bezüglich Alter und Geschlecht am ähnlichsten und zudem möglichst aktuell ist. Es finden sich aber auch noch feiner aufgegliederte Normen, z.B. auch bezüglich des Bildungsstands oder der besuchten Schulform. Ein IQ-Wert bedeutet immer nur, wie gut oder schlecht die Leistungen einer Person im Vergleich mit einer ihr möglichst ähnlichen Gruppe von Menschen sind. Und das ist genau der Grund, aus dem man für ein und denselben Menschen unzählige IQ-Werte berechnen kann – und ein IQ-Wert völlig ohne Aussage ist, solange man nicht mit angibt, zu welcher Normstichprobe man die Person ins Verhältnis gesetzt hat: Wenn der IQ unseres Kindes aus dem Vergleich mit einer Stichprobe Fünfjähriger resultiert, würde man den IQ von 118 nicht als besonders hoch einstufen; stammt er jedoch aus einem Vergleich mit einer Gruppe 16-Jähriger, kann man sich ziemlich sicher sein, dass das Kind wohl hochbegabt ist. Das ganze noch einmal in Kürze: Wenn jemand Ihnen das nächste Mal erzählt, er habe einen IQ von 150 – dann fragen Sie ihn doch bitte, aus dem Vergleich mit welcher Normstichprobe dieses Ergebnis resultiert.

Wie ist Intelligenz in der Menschheit verbreitet?

Wie oben bereits erwähnt, handelt es sich bei IQ-Werten um eine standardisierte Skala, auf der sich durch einfache Umrechnung alle möglichen Werte abbilden lassen, solange man die zwei wichtigen Angaben vorliegen hat: den Mittelwert und die Standardabweichung der betreffenden Stichprobe. Wann immer ich im Rest dieses Artikels von IQ-Werten spreche, bitte ich, dieses zu berücksichtigen.

Wie man aus zahlreichen Untersuchungen an großen repräsentativen Stichproben weiß, folgen IQ-Werte in der menschlichen Bevölkerung ziemlich genau einer so genannten Gauss’schen Normalverteilung (auch Gauss’sche Glockenkurve oder einfach kurz Normalverteilung genannt). Bei diesem Begriff handelt es sich im Grunde um eine Art „Etikett“, da es eine besondere Form von Verteilung bezeichnet, der (statistische) Werte (wie eben IQ-Werte) folgen können. Eine Normalverteilung lässt sich anhand zweiter Werte genau beschreiben, und zwar wiederum anhand des Mittelwertes und der Standardabweichung, die maßgeblich die Form der Kurve beeinflussen. Was ich im vergangenen Abschnitt noch verschwiegen habe, ist der sehr wichtige Umstand, dass die Tatsache, dass IQ-Werte einer solchen Normalverteilung folgen, einen ganz entscheidenden Vorteil mit sich bringt: nämlich den, dass die Berechnungen und Umrechnungen, die ich oben dargestellt habe, dadurch überhaupt erst mathematisch zulässig sind. Würden IQ-Werte keiner Normalverteilung folgen, hätten wir es um einiges schwieriger. So jedoch lässt sich (wie oben schon erwähnt) guten Gewissens sagen: IQ-Werte haben in der menschlichen Bevölkerung einen Mittelwert von 100 und eine Standardabweichung von 15. Um das ganze einmal ein bisschen plakativer zu machen, habe ich einmal eine entsprechende Abbildung gebastelt.

Verteilung des IQ in der Bevölkerung
Verteilung des IQ in der Bevölkerung

Um diese Glockenkurve nun zu verstehen, ist es wichtig, dass man nicht versucht, die y-Achse zu interpretieren (weshalb ich sie auch weggelassen habe). Mathematisch betrachtet handelt es sich bei dieser Kurve um eine Dichte-Funktion, d.h. auf der y-Achse ist die schwer interpretierbare Dichte abgetragen. Man darf und kann diese Kurve daher nicht direkt so lesen, dass sie einem Aufschluss darüber gibt, wie vielen Prozent der Menschen welcher IQ-Wert zugordnet ist (das geht daher nicht, weil die Intelligenz hier mathematisch als stetiges Merkmal konzipiert ist – aber nun genug mit dem statistischen Wirrwarr).

Sinnvoll interpretierbar ist hingegen das Integral, also die Fläche unter der Glockenkurve. Mit deren Hilfe kann man zumindest Aussagen darüber treffen, wie viele IQ-Werte sich in einem bestimmten Bereich bewegen. So liegen z.B. im Bereich einer Standardabweichung unter- und überhalb vom Mittelwert von 100 (also zwischen den IQ-Werten von 85 und 115) rund 68% aller IQ-Werte, und somit auch aller Menschen. Zwischen 70 und 130 liegen derweil z.B. rund 95% aller Werte, d.h. es liegen nur 2,5% unter 70 und 2,5% über 130. Als Konvention hat sich daher eingebürgert, alle IQ-Werte zwischen 85 und 115 als „durchschnittlich“ zu bezeichnen, Werte zwischen 70 und 85 als „niedrig“ und Werte zwischen 115 und 130 als „hoch“. „Hochintelligent“ ist daher streng genommen etwas anderes als „hochbegabt“, was sich als Begriff für IQ-Werte über 130 etabliert hat. Zur Erinnerung: Diese Menschen liegen bzgl. ihrer kognitiven Leistungen mehr als zwei Standardabweichungen über dem Mittelwert ihrer (hoffentlich) alters- und geschlechtsspezifischen Normstichprobe. Ähnliches gilt in umgekehrter Richtung für IQ-Werte unter 70. Hier bewegen wir uns (allerdings noch mit bedeutenden Abstufungen!) im Bereich der geistigen Behinderung (für deren Definition vorrangig der IQ herangezogen wird). Diese praktischen Prozentangaben haben einen weiteren Vorteil: Man kann jedem IQ-Wert einen Prozentrang zuweisen und somit z.B. Aussagen der Sorte „besser als 84% aller Mitglieder der Normstichprobe“ (bei einem IQ von 115) treffen. Um zu der Anmerkung von vorhin zurückzukommen: Ein IQ von 150 würde bedeuten, dass 99,96% der Menschen in der Normstrichprobe (und somit gewissermaßen auch in der Bevölkerung, für die die Normstichprobe ja repräsentativ sein soll) einen niedrigeren Wert aufweisen: Und das ist, wie sie auch an der Abbildung sehen können, hochgradig unwahrscheinlich – mal davon abgesehen, dass kein Intelligenztest einen so hohen Wert vernünftig messen kann (Thema des nächsten Artikels).

Exkurs: Männer & Frauen

Ein ganz heikles Thema ist es natürlich, ob nun Männer oder Frauen im Durchschnitt intelligenter sind. Der mir bekannte aktuelle Forschungsstand hierzu ist der, dass es – bezüglich der allgemeinen Intelligenz – einen marginalen Unterschied dahingehend gibt, dass Männer ein paar wenige IQ-Punkte vorne liegen, gleichzeitig aber die Varianz bei Männern höher ist: Sowohl in den sehr hohen als auch in den sehr niedrigen IQ-Bereichen überwiegen Männer. Dazu sei noch gesagt, dass dieser Unterschied durch zwei Aspekte an Bedeutung verliert: Zum einen ist die Varianz innerhalb jeder der beiden Gruppen um ein Vielfaches größer als der Unterschied zwischen den Gruppen, und zum anderen ist es gut möglich, dass jener Unterschied dadurch zustande gekommen ist, dass viele Intelligenztests bestimmte Aufgaben in den Vordergrund stellen, die Männer bevorteilen. Denn was als gut gesichert gilt, ist, dass Männer und Frauen sich deutlich hinsichtlich ihrer kognitiven Stärken und Schwächen unterscheiden: Es gilt als sehr robuster Befund, dass Männer z.B. im Mittel besser im visuell-räumlichen Denken abschneiden als Frauen, die wiederum im Durchschnitt die Nase vorn haben, was die verbale Intelligenz betrifft.

Der Flynn-Effekt: Wird die Menschheit wirklich immer intelligenter?

Eine andere Fragestellung ist die, ob der durchschnittliche IQ der Menschheit tatsächlich zunimmt – ein Phänomen, das in Anlehnung an den neuseeländischen Politologen James R. Flynn als Flynn-Effekt bezeichnet wird. Dieser Fragestellung auf den Grund zu gehen, ist aufgrund der beschriebenen Berechnungsweise des IQ gar nicht so einfach – denn um herauszufinden, ob der IQ im Mittel steigt, darf man Menschen eben nicht mit aktuellen Normstichproben vergleichen, sondern muss ältere heranziehen: Nur so kommt man dem Flynn-Effekt auf die Schliche.

In der Tat haben groß angelegte Studien ergeben, dass der mittlere IQ in der westlichen Bevölkerung zwischen den 1930er und den 1990er Jahren um 0,2 – 0,5 Punkte pro Jahr gestiegen ist. Dieser Anstieg ergibt sich natürlich aus dem Vergleich mit den immer gleichen Normen aus den 1930er Jahren – anders wäre ein Anstieg ja gar nicht messbar. Dabei nahmen die Leistungen in nicht-sprachlichen Tests (die vor allem fluide Intelligenz messen) deutlich stärker zu als die in sprachlich basierten Tests (die vor allem kristalline Intelligenz messen). Für diesen Befund wurden diverse Erklärungshypothesen diskutiert, die im Folgenden kurz angeschnitten werden sollen.

Dauer des Schulbesuchs und Erfahrung mit typischen Intelligenztestaufgaben

In der Tat nahm die durchschnittliche Dauer des Schulbesuchs in dieser Zeit deutlich zu – was deshalb wichtig ist, weil somit auch die Erfahrung und die Geübtheit im systematischen Lösen von schulischen Aufgaben zunahm, die typischen Intelligenztests sehr ähnlich sind. Der Anteil dieser Faktoren am Flynn-Effekt ist jedoch eher als gering zu einzustufen.

Erziehungsstil

Weiterhin wurde in den Raum geworfen, dass der typische elterliche Erziehungsstil in dieser Zeitspanne natürlich auch einem erheblichen Wandel unterlegen war. Konkret wird von den Vetretern dieser Hypothese angeführt, dass von Eltern zunehmend Wert darauf gelegt wurde, ihre Kinder schon früh in ihrer kognitiven Entwicklung zu fördern. Dieser Trend fand aber nicht nur im familiären Rahmen, sondern auch in viel größerem Maße in den Medien (Beispiel „Sesamstraße“) und in der Politik statt. Die Befunde hierzu sind widersprüchlich. Während man weiß, dass große, national initiierte Bildungsprogramme eher keine Wirksamkeit bezüglich der Erhöhung des durchschnittlichen IQs vorweisen können, wirkt sich frühe Förderung auf der individuellen Ebene durchaus positiv auf die kognitive Entwicklung aus.

Weniger Fälle geistiger Behinderung

Zu bedenken ist sicherlich auch, dass aufgrund besserer medizinischer Versorgung die Zahl der mit geistigen Behinderungen geborenen Kinder in der beschriebenen Zeitspanne zurückgegangen ist. Einige Studien hierzu messen diesem Aspekt im Hinblick auf den Flynn-Effekt eine zentrale Bedeutung bei: Durch den überproportionalen Wegfall sehr niedriger IQ-Werte (<70) in der Bevölkerung stieg der durchschnittliche IQ im Mittel an.

Ernährung

Es ist gut belegt, dass bessere Ernährung (z.B. vitaminreiche Kost, weniger Schadstoffe, etc.) die geistige Entwicklung von Kindern positiv beeinflusst. Durch ungesunde Ernährung kann es z.B. zu Schilddrüsenunterfunktionen kommen (gekennzeichnet durch einen Mangel an Triiodthyroxin und Triiodthyronin), die dann wiederum eine Verzögerung der geistigen Entwicklung bedingen können, sodass der mittlere IQ infolgedessen gestiegen sein könnte.

Vermutlich ist es tatsächlich nicht einer dieser Faktoren, die den Flynn-Effekt erklären, sondern ihr Zusammenspiel. Interessanterweise ist es derweil übrigens so, dass der Anstieg des mittleren IQ seit Anfang der 1990er Jahre als „gestoppt“ gilt, sodass man zumindest momentan sagen kann, dass der Flynn-Effekt der Vergangenheit angehört. Manche deuten dies als Beleg für die Richtigkeit der Ernährungshypothese (da die Nahrungsversorgung in der westlichen Gesellschaft gewissermaßen nicht noch viel besser werden kann), ich jedoch würde eher sagen, dass diese Tatsache der „Sättigung“ in entsprechender Weise auf alle Erklärungsansätze zutrifft.

In diesem Artikel habe ich mehrfach schon das Thema der Intelligenzmessung gestreift. Ob, wie – und vor allem – wie genau man die Intelligenz eines Menschen tatsächlich messen kann, wird daher der Inhalt des nächsten Artikels sein.

© Christian Rupp 2014

Klinische Psychologie, Psychotherapie, Psychoanalyse: Wo gehört Freud nun hin?

Klinische Psychologie

Die Klinische Psychologie als Teilgebiet der Psychologie befasst sich (ebenso wie ihr medizinisches Pendant, die Psychiatrie) mit psychischen Störungen, aber auch mit den psychischen Einflüssen bei auf den ersten Blick rein körperlich bedingten Krankheiten, wie z.B. Kopf- und Rückenschmerzen oder dem Reizdarmsyndrom (wo psychischen und Verhaltensfaktoren eine große Bedeutung zukommt). Diese Richtung ist ganz eng verwandt mit dem medizinischen Fach der Psychosomatik, das sich ebenfalls dem Einfluss psychischer Faktoren auf körperliche Symptome widmet und Körper und Psyche schon lange nicht mehr als getrennte Einheiten, sondern als Bestandteile eines untrennbar miteinander verwobenen Systems betrachtet.

Die Klinische Psychologie ist somit eines der großen Anwendungsfächer im Psychologiestudium. Dass es nur eines von mehreren ist, möchte ich an dieser Stelle noch einmal ganz deutlich machen, denn in der Laiengesellschaft wird „Psychologie“ oftmals mit „Klinischer Psychologie“ gleichgesetzt bzw. auf diese reduziert. Konkret werden in der Klinischen Psychologie vor allem die Ursachen von psychischen Störungen erforscht und in Bezug auf die verschiedenen Störungen spezifische Modelle für deren Entstehung entwickelt. So werden z.B. in Längsschnittstudien (die die Versuchsteilnehmer über Jahre begleiten) Risikofaktoren (z.B. bestimmte Erlebnisse in der Kindheit, der Erziehungsstil der Eltern, kindliche Verhaltensstörungen, etc.) und Auslösefaktoren (z.B. stressreiche Lebensereignisse) für psychische Störungen erforscht. Ferner wird auch an großen Bevölkerungsstichproben die Häufigkeit psychischer Störungen und deren Verlauf (z.B. episodenweise oder chronisch) untersucht –  zusammengefasst wird dieser Bereich unter dem Begriff „Epidemiologie“. Ein weiteres Gebiet ist außerdem die Experimentelle Psychopathologie, die systematisch mit Hilfe typischer experimenteller Manipulationen Begleiterscheinungen (Korrelate) psychischer Störungen untersucht. Hierzu gehören z.B. die Befunde, dass schizophrene Patienten Beeinträchtigungen bei unbewussten, motorischen Lernprozessen (implizitem Sequenzlernen) aufweisen und ADHS-Patienten sich hinsichtlich bestimmter ereigniskorrelierter Potenziale wie der „P300“ von gesunden Menschen unterscheiden. Befunde der experimentellen Psychopathologie tragen so auch dazu bei, die Ursachen psychischer Störungen besser zu verstehen, da sie Einsicht in Fehlfunktionen der Informationsverarbeitung und somit in „schief laufende“ Gehirnprozesse ermöglichen.

Psychotherapie

Kognitive Verhaltenstherapie

Das für die Praxis relevanteste und wahrscheinlich inzwischen größte Teilgebiet der Klinischen Psychologie ist das der Psychotherapie. Hier werden einerseits, aus den Störungsmodellen abgeleitet, Psychotherapieverfahren (auch Interventionen genannt) entwickelt und andererseits diese im Rahmen kontrollierter Studien auf ihre Wirksamkeit überprüft (daher der Name Psychotherapieforschung). Die Formen von Psychotherapie, die sich aus der wissenschaftlichen Psychologie entwickelt haben und deren Wirksamkeit intensiv erforscht und belegt ist, werden heutzutage unter dem Sammelbegriff „Kognitive Verhaltenstherapie“ (kurz KVT) zusammengefasst, die im deutschen Gesundheitssystem derweil nur als „Verhaltenstherapie“ bezeichnet wird. Hierbei handelt es sich um eine sehr vielfältige Gruppe von erfolgreichen Verfahren, die darauf abzielen, psychische Störungen sowohl durch die Veränderung des Verhaltens, als auch durch die Veränderung kognitiver Strukturen (z.B. festgefahrener Gedankenmuster) zu behandeln. Die KVT ist dabei ein Therapieverfahren, das sich als Methode sowohl des therapeutischen Gesprächs als auch vieler Aktivitäten und Trainings zum Aufbau von Verhaltensweisen bedient, z.B. des Trainings sozialer Kompetenzen. Emotionen, wie z.B. die Traurigkeit oder Niedergeschlagenheit, die die Depression kennzeichnen, werden hierbei entweder als Konsequenz von Verhalten und Gedanken angesehen und indirekt beeinflusst oder aber in neueren Ansätzen auch direkt angegangen. So basiert die Emotionsfokussierte Therapie nach Greenberg z.B. unter anderem darauf, dass Emotionen intensiv durchlebt werden müssen, um sie zu bewältigen – ein Ansatz, den die Kognitive Verhaltenstherapie zuvor nur aus der Expositions- bzw. Konfrontationstherapie für Angststörungen kannte.

Gesprächspsychotherapie & Gestalttherapie

Neben der kognitiven Verhaltenstherapie gibt es eine zweite Richtung von Psychotherapie, die tatsächlich aus der Psychologie stammt, und das ist die humanistische Psychotherapie (auch klientenzentrierte oder Gesprächspsychotherapie genannt), die sich ausschließlich des Gesprächs bedient und dabei die Leitung des Gesprächs meist dem Patienten überlässt. Begründer dieser Therapierichtung war Carl Rogers, der als die drei Hauptwirkungsmechnismen der Therapie die empathische Grundhaltung und die bedingungslose Wertschätzung des Therapeuten dem Patienten (Rogers nennt ihn Klienten) gegenüber sowie die Echtheit des Therapeuten selbst beschreibt. Letzteres meint, dass der Therapeut sich dem Patienten gegenüber nicht verstellen, sondern authentisch verhalten soll. Ziel des Therapeuten ist es hierbei, dem Patienten keine Ratschläge zu geben, sondern die Voraussetzungen dafür zu schaffen, dass der Patient sein Problem selbst lösen kann. Eine Weiterentwicklung der Gesprächspsychotherapie nach Rogers ist übrigens die Gestalttherapie nach Perls, die sich allerdings in vielen Punkten von Rogers‘ Vorgehen unterscheidet, z.B. darin, dass der Therapeut sehr viel mehr das Gespräch lenkt und auch konfrontativer vorgeht.

Obwohl die von Rogers vorgeschlagene Art der Psychotherapie nachgewiesenermaßen bereits beträchtliche Verbesserungen bewirken kann, ist sie insgesamt nicht so wirksam wie die Kognitive Verhaltenstherapie, in der aber grundsätzlich die Prinzipien der Gesprächsführung nach Rogers nach wie vor eine bedeutende Rolle spielen. An der Uni Münster z.B., wo ich studiere, gehört das praktische Erlernen dieser Gesprächsführungskompetenzen auch fest zum Psychologiestudium dazu, weshalb das Führen konstruktiver Gespräche und auch der Umgang mit schwierigen Gesprächssituationen im Prinzip auch eine Fähigkeit ist, die nahezu jeden Psychologen auszeichnen dürfte.

Psychoanalyse

Wie Sie vielleicht gemerkt haben, ist der Name „Freud“ bisher nicht gefallen. Das liegt daran, dass ich bisher bewusst nur Psychotherapieformen beschrieben habe, die aus der Psychologie heraus entstanden sind. Freud derweil war Arzt, kein Psychologe, und daher auch keinesfalls der Begründer oder Vater der Psychologie. Er war dafür aber der Begründer der Psychoanalyse, der allerersten Form von Psychotherapie, die er vor über 100 Jahren entwickelte. Während man in der Gesprächspsychotherapie oder der Kognitiven Verhaltenstherapie als Patient dem Therapeuten gegenüber sitzt, legte Freud (und hier kehren wir zu dem Cliché schlechthin zurück) seine Patienten tatsächlich auf die Couch. Das hatte vor allem den Grund, dass Freud sich stark an der Hypnose orientierte, die damals schon bekannt und verbreitet war. Die klassische Psychoanalyse dauert sehr lange (mehrere Jahre bei mehreren Sitzungen pro Woche) und spült dem Therapeuten daher viel Geld in die Kasse. Während der Therapiesitzung liegt der Patient, während der Therapeut außerhalb des Sichtfeldes des Patienten sitzt und eine neutrale Person darstellt, die (ganz im Gegensatz zu Rogers Idee der Echtheit) nichts von sich selbst preisgibt. Während Patient und Therapeut sich in der KVT oder der Gesprächspsychotherapie auf Augenhöhe begegnen, steht der Psychoanalytiker hierarchisch über dem Patienten und hat die absolute Deutungshoheit über das, was der Patient sagt. Es handelt sich insgesamt um eine höchst unnatürliche Gesprächssituation, bei der der Therapeut das tut, was Psychologiestudierenden immer fälschlicherweise vorgeworfen wird: Er analysiert den Patienten bis in die tiefsten Tiefen und stellt dann irgendwann fest, was für ein Konflikt vorliegt.

Intrapsychische Konflikte und ganz viel Sex

Denn die Psychoanalyse erklärt psychische Störungen (ganz grob gesagt) durch intrapsychische Konflikte mit Ursache in der Kindheit, die dadurch geprägt sind, dass ein Bedürfnis oder Trieb (meist sexueller oder aggressiver Art), gesteuert vom so genannten Es, mit einer gesellschaftlichen Norm, repräsentiert durch das Über-ich, nicht vereinbar war oder ist. In der Gegenwart muss die aus diesem Konflikt resultierende Spannung durch irgendwelche ungünstigen Methoden abgewehrt werden, wodurch dann die Störung entsteht, die Freud als Neurose bezeichnet. Als Beispiel soll die Geschichte des „kleinen Hans“ dienen, einer Fallbeschreibung Freuds vom einem kleinen Jungen mit der Angst vor Pferden. Laut Freud hatte der Junge den so genannten Ödipus-Konflikt nicht gelöst, der darin besteht, dass angeblich alle Jungen zwischen 4 und 6 Jahren sexuelles Verlangen (Es) nach ihrer Mutter verspüren, woraufhin sie aber, weil sie wissen, dass ihr Vater als Konkurrent stärker ist und das ganze auch irgendwie nicht so sein sollte (Über-Ich), Angst davor entwickeln, dass der Vater sie kastrieren wird (Kastrationsangst; hier erscheint mir die kleine Anmerkung nützlich, dass sich bei Freud eigentlich grundsätzlich alles um Sex dreht). Laut Freud entsteht das Symptom (die Angst vor Pferden) nun durch eine Verschiebung (einen von vielen verschiedenen Abwehrmechanismen) der Angst, die eigentlich auf den Vater gerichtet ist, auf Pferde. In der Fallbeschreibung wird übrigens auch kurz erwähnt, dass der kleine Hans kurz zuvor von einem Pferd getreten worden war. Aber warum sollte das schon relevant sein? Wäre ja eine viel zu naheliegende Erklärung.

Besserung ist nicht das Ziel

Sie können meinem Sarkasmus entnehmen, dass ich von dieser Therapieform nicht viel bis gar nichts halte, da sie sehr weitreichende und oft abstruse Annahmen macht, die durch keinerlei Befunde der Psychologie gestützt werden. Denn der Psychoanalyse mangelt es im Gegensatz zur Psychologie stark an Wissenschaftlichkeit: Ihr fehlt vor allem das Kriterium der Falsifizierbarkeit, was bedeutet, dass sie keine eindeutigen Aussagen liefert, die man derart überprüfen könnte, dass man je nach Ergebnis die Theorie entweder bestätigen oder verwerfen könnte. Mit anderen Worten. Zudem besitzt die Psychoanalyse die Fähigkeit, psychische Störungen zu verschlimmern, anstatt sie zu heilen. Wie schon der Psychologe Eysenck im Jahr 1952 in einer auf Krankenversicherungsdaten basierenden, zusammenfassenden Studie eindrucksvoll darlegt, liegt der Heilingserfolg der Psychoanalyse nahe 0 bzw. übersteigt nicht das, was durch Zufall zu erwarten wäre. Dies gab die Initialzündung dafür, dass vor ca. 60 Jahren immer mehr Psychotherapien tatsächlich innerhalb der wissenschaftlichen Psychologie entwickelt wurden und der Psychoanalyse zunehmend Konkurrenz machten. Der riesige Vorteil dieser neuen Verfahren war der, dass diese stets auf wissenschaftlichen Theorien basierten und die Wirksamkeitsüberprüfung im Selbstverständnis der Psychologen bereits fest verankert war. Seit damals hat sich die Psychoanalyse ziemlich stark gegen weitere Wirksamkeitsforschung gewehrt (wen wundert’s?), was aber auch auf einen wichtigen konzeptuellen Unterschied zu anderen Psychotherapieformen zurückzuführen ist: Anders als die Kognitive Verhaltenstherapie oder die Gesprächspsychotherapie verfolgt die Psychoanalyse auch gar nicht das Ziel, dass es dem Patienten am Ende besser geht, also sich die Symotome reduzieren. Das Ziel besteht darin, dem Patienten Einsicht in seine (vermeintlichen) intrapsychischen Konflikte zu geben, damit dieser sich selbst „besser verstehen“ kann. Die Annahme ist, dass dies hinreichend zur Verbesserung ist. Die Realität sieht so aus, dass Patienten meist nach mehreren Jahren Analyse keinen Schritt weiter, sondern eher noch mehr belastet sind durch die Kenntnis über all die (angeblichen) ungelösten Konflikte, die sie mit sich herumtragen. An dieser Stelle sei der Unterschied zur KVT und zur Gesprächspsychotherapie noch einmal ganz deutlich gemacht: Diese Verfahren analysieren das Verhalten und Erleben des Patienten auch, aber auf andere Weise, als die Psychoanalyse es tut. Zum einen wird auf so bizarre Elemente wie den Ödipuskomplex, Kastrationsangst und intrapsychische Konflikte verzichtet, zum anderen orientiert sich die Analyse (von typischen, eingefahrenen Verhaltens- sowie Denkmustern) immer daran, was man in der Folge auch therapeutisch verändern kann, um eben nicht ewig auf der meist lange zurückliegenden Ursache der Störung herumzureiten, sondern nach vorne zu blicken und die Aufrechterhaltung der Störung zu durchbrechen.

Weiterentwicklung: Tiefenpsychologisch fundierte Psychotherapie

Dass die Psychoanalyse, unter dem Label „Analytische Psychotherapie“, in Deutschland zu den Psychotherapieverfahren gehört, die von den Krankenkassen übernommen werden, liegt übrigens nicht etwa an ihrer wissenschaftlichen Basiertheit, sondern vor allem an der großen Lobby, die diese Richtung in Deutschland lange Zeit hatte. Die klassische Psychoanalyse ist heute nur noch sehr selten anzutreffen und ist hauptsächlich unter Ärzten (also hauptsächlich Psychiatern) noch relativ weit verbreitet, eben weil Freud selbst auch Arzt war. „Psychoanalyse“ muss allerdings nicht zwangsweise bedeuten, dass die Lehre von Freud angewandt wird. Freud hatte viele Schüler, die im Laufe ihres Lebens ihre eigenen psychoanalytischen Theorien entwickelt und sich dabei größtenteils deutlich von Freuds Lehre distanziert haben – hierzu zählen z.B. Alfred Adler und Carl Gustav Jung. Abgesehen hiervon gibt es aber auch sehr moderne Weiterentwicklungen der Psychoanalyse, die unter dem Sammelbegriff der „Psychodynamischen Psychotherapie“ oder der „Tiefenpsychologisch fundierten Therapie“ (das ist der offizielle Name der Therapieform im deutschen Gesundheitssystem, die neben der Verhaltenstherapie und der Analytischen Psychotherapie von den Krankenkassen übernommen wird) zusammengefasst werden. Diese haben oft nur noch sehr rudimentäre Ähnlichkeit mit Freuds Ideen und sehen auch eine ganz andere, von mehr Empathie und Gleichberechtigung geprägte Interaktion zwischen Therapeut und Patient vor (unter anderem sitzt der Patient dem Therapeuten gegenüber und liegt nicht). Die Gemeinsamkeit beschränkt sich meist auf die Annahme von ungelösten Konflikten, die ihren Ursprung in der Kindheit haben. Im Gegensatz zur Psychoanalyse begnügt man sich aber nicht nur mit der Einsicht des Patienten, sondern strebt auch eine Veränderung an. In diesem Sinne sind viele moderne psychodynamische Therapieformen der KVT oder der Gesprächspsychotherapie zumindest oberflächlich gesehen recht ähnlich. Eine weitere Errungenschaft dieser weiterentwickelten Therapieform ist die Psychotherapieforschung, die die Wirksamkeit zumindest einiger dieser neuen Verfahren inzwischen belegt hat, was tvor allem auf einige manualisierte, psychodynamische Kurzzeittherapien zutrifft.

Die Begriffe noch einmal im Überblick

Um noch einmal die Begrifflichkeiten zusammenzufassen: Klinische Psychologen sind solche, die sich im Studium und in der darauf folgenden Berufstätigkeit auf psychische Störungen spezialisiert haben. Sie sind in der Regel Experten für das Erscheinungsbild und die Diagnostik psychischer Störungen und kennen sich mit den Ursachen aus. Auch von Psychotherapie haben sie normalerweise eine Menge Ahnung, dürfen diese aber nur im Rahmen einer postgradualen (d.h. nach dem Master- oder Diplomabschluss ansetzenden) Ausbildung zum Psychologischen Psychotherapeuten oder eben nach deren erfolgreichem Abschluss ausüben, d.h. nach Erteilung der Heilbefugnis (Approbation). Die meisten Klinischen Psychologen sind auch Psychotherapeuten, sodass sich eine große Überlappung ergibt. Psychotherapeuten können derweil entweder kognitiv-verhaltenstherapeutisch, psychoanalytisch, humanistisch oder systemisch (eine weitere, vor allem in der Kinder- und Familientherapie anzutreffende Richtung, auf deren Darstellung ich hier aus Sparsamkeitsgründen verzichtet habe) orientiert sein. Psychiater, die psychotherapeutisch tätig sind, haben derweil meist eine psychodynamische Orientierung.

Übrigens

Als Begründer der Psychologie als experimentell orientierte, empirische Wissenschaft wird Wilhelm Wundt (1832-1920) angesehen, der 1879 das erste „Institut für Experimentelle Psychologie“ gründete, was oftmals als Geburtsstunde der Psychologie betrachtet wird. Wundt war sowohl durch die Physiologie als auch durch die Philosophie geprägt – was erklärt, dass die Psychologie bis heute mit beidem verwandt ist. Sigmund Freuds Verdienste habe ich derweil oben in Auszügen beschrieben. Was viele über ihn allerdings nicht wissen, ist, dass Freud stark kokainabhängig und ein extremer Kettenraucher war. Während er es zu Lebzeiten schaffte, vom Kokain loszukommen, blieb er bis zu seinem Tod stark nikotinabhängig und erkrankte vermutlich infolge dessen schwer an Kieferkrebs. Von dieser extrem qualvollen Erkrankung gezeichnet, setzte er 1939 im Londoner Exil (Freud war, obwohl atheistischer Religionskritiker, jüdischer Abstammung) seinem Leben ein Ende. So kann es eben leider auch enden. Und so endet auch die vierteilige Reihe von Artikeln darüber, was Psychologie ist und was nicht.

Warum Psychologie mehr mit Mathematik als mit einer Couch zu tun hat

Die landläufige Ansicht ist die, dass man, wenn man Psychologie studiert, vor allem lernt, andere Menschen zu analysieren und dass man in beruflicher Hinsicht grundsätzlich nur mit psychisch Kranken („Verrückten“) zu tun hat. Nun, liebe Leserin bzw. lieber Leser – dies könnte nicht weiter an der Realität vorbei gehen. Was jedoch zutrifft, ist, dass auch ein sehr großer Teil derjenigen, die sich nach dem Abitur für ein Psychologiestudium entscheiden, diese Entscheidung auf Basis eines ähnlich falschen Bildes trifft und sich dann im ersten Semester wundert, warum irgendwie niemand ihnen etwas von Traumdeutung von verdrängten Bedürfnissen erzählt.

Wenn man sich die Inhalte des Psychologiestudiums ansieht, stellt man fest: Knapp die Hälfte der Lehrinhalte besteht aus Methodenlehre, Statistik, experimentellen Forschungspraktika und Dingen wie Testtheorie, Fragebogenkonstruktion und wissenschaftlicher Datenanalyse – mit anderen Worten: aus jeder Menge Mathematik und Computerarbeit. Zudem muss man das Studium mit einer eigenen wissenschaftlichen Arbeit (der Bachelor- und Masterarbeit oder im alten Diplomstudiengang der Diplomarbeit) abschließen, für die jeweils eine eigene empirische Untersuchung durchgeführt und ausgewertet werden muss. Wozu nun das ganze? Nun, wie schon im vorausgehenden Artikel beschrieben, ist die Psychologie eine empirische Naturwissenschaft, und ein wesentliches Hauptziel des Studiums besteht darin, die Studierenden zu Naturwissenschaftlern auszubilden – mit allem, was dazu gehört. Konkret bedeutet dies zweierlei: die Kenntnis wissenschaftlicher Methoden und Kenntnisse in der statistischen Datenanalyse.

Erstens gilt es (grob gesagt), sich Expertise darüber anzueignen, wie man welchen Forschungsfragen auf den Grund gehen kann. Hierzu gehört die komplette Gestaltung einer solchen Studie bzw. eines solchen Experiments, aus dem man dann am Ende auch tatsächlich aussagekräftige Schlussfolgerungen ziehen kann. Und das tatsächlich hinzubekommen, ist alles andere als leicht und rechtfertigt durchaus, dass nicht nur in den Methodenfächern selbst (die dann so schöne Namen haben wie „Forschungsmethoden der Psychologie“, „Versuchsplanung“ oder „experimentelles Forschungspraktikum“), sondern in allen Fächern Wert darauf gelegt wird, die Prinzipien guter psychologischer Forschung deutlich zu machen. Im Hinblick auf das, was man bei der Planung eines psychologischen Experiments alles falsch machen kann, sind vor allem die interne und externe Validität zu nennen. Nehmen wir als Beispiel ein Experiment, in dem der Einfluss der Arbeitsbelastung auf das Stressempfinden von Probanden untersucht werden soll (eine ganz typische psychologische Fragestellung: Was ist der Einfluss von X auf Y?).

Interne Validität: Welchen Einfluss untersuche ich?

Die interne Validität ist gegeben, wenn Veränderungen in der abhängigen Variablen (Stressempfinden) ausschließlich auf die experimentelle Manipulation (also vom Versuchsleiter gesteuerte Veränderung) der unabhängigen Variablen (Arbeitsbelastung) zurückzuführen sind. Wenn aber in der Situation des Experiments noch andere Einflüsse vorhanden sind (so genannte Störvariablen), z.B. zusätzlicher Druck durch andere Probanden im selben Raum, dann weiß man ganz schnell schon nicht mehr, worauf etwaige Veränderungen der abhängigen Variablen (Stressempfinden) zurückzuführen sind: auf die experimentell kontrollierte Arbeitsbelastung oder auf die Anwesenheit der anderen Probanden? In diesem Fall ist die Lösung einfach: Jeder Proband muss einzeln getestet werden. Danach wären jedoch immer noch Einflüsse von anderen Störvariablen möglich: So könnte es z.B. eine Rolle spielen, ob der Versuchsleiter sich den Probanden gegenüber eher kühl-reserviert oder freundlich-motivierend verhält (ein so genannter Versuchsleiter-Effekt). Die Lösung hierfür wären standardisierte Instruktionen für jeden Probanden. Was ich hier beschreibe, sind, an einem sehr einfachen Beispiel dargestellt, typische Vorüberlegungen, die man vor der Durchführung einer psychologischen Studie unbedingt durchgehen sollte, um nicht am Ende ein Ergebnis ohne Aussagekraft zu haben. Wie ihr euch sicher vorstellen könnt, wird das ganze umso komplizierter, je schwieriger und spezifischer die Forschungsfrage ist. Besonders in der kognitiven Neurowissenschaft, wo es um die Untersuchung von Prozessen im Gehirn geht, kann dies schnell extreme Komplexitätsgrade annehmen. Was man daher unbedingt braucht, ist das Wissen aus der Methodenlehre, kombiniert mit spezifischem Wissen über dasjenige Fachgebiet, in dem man gerne forschen möchte.

Externe Validität: Gilt das Ergebnis für alle Menschen?

Die externe Validität ist derweil gegeben, wenn (die interne Validität vorausgesetzt), das Ergebnis der Studie verallgemeinerbar ist, d.h. repräsentativ. Dies ist vor allem eine Frage der Merkmale der Stichprobe (die Gruppe von Probanden, die man untersucht). Vor allem interessiert dabei deren Größe (bzw. Umfang), die insbesondere aus statistischer Sicht zentral ist, sowie deren Zusammensetzung. So leuchtet einem ziemlich gut ein, dass das Ergebnis einer Studie nur dann Aussagen über alle Menschen ermöglicht, wenn die Stichprobe auch repräsentativ für die Gesamtbevölkerung ist – also z.B. nicht nur weibliche Studierende einer bestimmten Altersklasse und einer bestimmten sozialen Schicht enthält. Tatsächlich konnte allerdings für sehr viele psychologische Merkmale gefunden werden, dass sie überraschend unabhängig von solchen Unterschieden sind, sodass die externe Validität häufig eine untergeordnete Rolle spielt (was allerdings auch mit daran liegt, dass es sehr aufwändig und teuer ist, repräsentative Stichproben zusammenzusetzen – Psychologiestudierende sind aufgrund der guten Verfügbarkeit einfach dankbare Versuchspersonen:-)).

Die operationale Definition: Messe ich, was ich messen will?

Neben interner und externer Validität ist auch die operationale Definition ein Punkt, an der sich gute Forschung von schlechter trennt. Gemeint ist hiermit die Übersetzung der abstrakten Variablen (unabhändige und abhängige) in konkrete, messbare Größen. Um zu meinem Beispiel von oben (Einfluss von Arbeitsbelastung auf Stressempfinden) zurückzukehren, müsste man sich also überlegen, wie man die Arbeitsbelastung und das Stressempfinden misst. Dies ist ein Punkt, der auf den ersten Blick vielleicht trivial erscheint und der einem Laien, wenn er über die Logik der Studie nachdenkt, wahrscheinlich auch nicht auffallen wird, der aber ebenfalls von zentraler Bedeutung für die Aussagekraft der Studie ist. Ebenso wie die Stichprobe repräsentativ für die Bevölkerung sein sollte, sollten die gemessene Größe (abhängige Variable) und die manipulierte Größe (unabhängige Variable) repräsentativ für das Konstrukt (Arbeitsbelastung, Stress) sein, das sich dahinter verbirgt. Die Arbeitsbelastung lässt sich noch recht einfach operational definieren – als Menge an Arbeitsaufträgen pro Stunde zum Beispiel. Aber wie sichert man, dass alle Aufträge auch wirklich gleich aufwändig sind und den Probanden gleich viel Zeit kosten? Dies ist eine Herausforderung für die Versuchsplaner. Das Stressempfinden stellt eine noch größere Herausforderung dar. Man könnte natürlich eine Blutprobe nehmen und die Konzentration des Cortisols (eines unter Stress ausgeschütteten Hormons) bestimmen. Das gibt aber nicht unbedingt den subjektiv empfundenen Stress wieder. Man könnte eben diesen mit einem eigens dafür konstruierten Fragebogen messen, der natürlich auf seine psychometrischen Gütekriterien hin überprüft werden muss (mit wie viel Aufwand und wie viel Rechnerei das verbunden ist, können sie hier nachlesen). Oder aber man lässt Fremdbeobachter den Stress der Probanden anhand deren Verhaltens einschätzen. Hierfür muss wiederum gesichert werden, dass die verschiedenen Beobachter ihre Bewertungen anhand desselben, auf beobachtbaren Verhaltensweisen basierenden Systems vornehmen und nicht irgendwelche subjektiven Einschätzungen vornehmen (das Kriterium der Objektivität). Was ich hoffe, hieran veranschaulicht zu haben, ist, dass psychologische Forschung weder trivial noch einfach ist, denn der Teufel liegt im Detail. Und von diesen kleinen Teufeln gibt es jede Menge, die man nur mit der nötigen wissenschaftlichen Expertise umgehen kann.

Statistik: Zufall oder nicht?

Die Statistik als Teilgebiet der Mathematik verdient sehr viel mehr, mit „Psychologie“ in einem Atemzug genannt zu werden, als das Wort „Couch“. So komplex das Thema ist, mit dem Psychologiestudierende sich eine ganze Reihe von Semestern herumschlagen müssen, so kurz und verständlich lässt sich der Zweck erklären. Denken Sie zurück an die typischen Forschungsfragen, die die Psychologie bearbeitet. Meistens geht es darum, den Zusammenhang zwischen zwei Variablen (z.B. Intelligenz & Arbeitserfolg, siehe vorheriger Artikel) zu berechnen, eine Variable durch eine andere vorherzusagen oder im Rahmen eines Experiments systematisch den Einfluss einer unabhängigen auf eine abhängige Variable zu untersuchen. Auch hier hinterfragt der Laie typischerweise nicht, wie das geschieht – wie Forscher z.B. darauf kommen, zu behaupten, „Killer“-Spiele würden die Aggression des Spielers erhöhen. Nun, dies ist einerseits eine Frage der wissenschaftlichen Methode, wie ich oben ausführlich beschrieben habe. Doch nach dem Durchführen der Studie hat man einen Haufen Daten gesammelt – und der muss ausgewertet und analysiert werden. Zum Analysieren werden die Daten derweil nicht auf die Couch gelegt, sondern in den Computer eingegeben, konkret in typischerweise eines der beiden Programme „SPSS“ oder „R“. Diese Programme ermöglichen es, für alle möglichen Formen, in denen Daten vorliegen können (und das sind sehr viele), statistische Maße zu berechnen, die den Zusammenhang zweier Variablen oder den Einfluss von einer Variablen auf die andere abbilden. Zum Fachjargon gehören bei Psychologen unter anderem (um einfach mal ein paar Begriffe ungeordnet in den Raum zu werfen) die Korrelation (von allen noch das nachvollziehbarste Maß), die multiple, logistische, hierarchische oder Poisson-Regression, das odds ratio, Kendall’s Tau-b, die Varianzanalyse oder ANOVA, das allgemeine und generalisierte lineare Modell, Faktorenanalysen, Strukturgleichungsmodelle, Survivalanalysen und viele, viele mehr.

Die Berechnung all dieser Maße ist der eine Zweck der Statistik. Der andere ist die Überprüfung der statistischen Signifikanz, die auf der Wahrscheinlichkeitstheorie und der Kenntnis ganz bestimmter Wahrscheinlichkeitsverteilungen beruht. Platt übersetzt ist ein Ergebnis einer Studie dann statistisch signifikant, wenn es nicht durch den Zufall zu erklären ist. Hierzu stellen wir uns einmal die allereinfachste Form eines psychologischen Experiments vor: den Vergleich von zwei Gruppen A und B, die sich nur anhand eines einzigen Merkmals unterscheiden – der experimentellen Manipulation der unabhängigen Variablen (z.B. Therapie ja oder nein), deren Einfluss auf eine abhängige Variable (z.B. Angst vor Spinnen) untersucht werden soll. Nach der Therapie vergleicht man A und B hinsichtlich ihrer Angst vor Spinnen und stellt fest, dass Gruppe A, die die Therapie erhalten hat, weniger Angst hat als Gruppe B, die keine Therapie erhalten hat (einen ausführlichen Artikel über die Art und Weise, wie die Wirksamkeit von Psychotherapie untersucht wird, finden Sie hier). Ein Laie würde jetzt wahrscheinlich sagen, dass die Therapie wirksam ist, vielleicht in Abhängigkeit davon, wie groß der Unterschied zwischen A und B ist. Das Tolle, das uns die Statistik ermöglicht, ist nun, zu überprüfen, ob der gefundene Unterschied zwischen den Gruppen signifikant ist, d.h. nicht durch den Zufall erklärt werden kann, der ja mitunter so einiges erklären kann. So berechnet man die konkrete Wahrscheinlichkeit dafür, dass das gefundene Ergebnis (z.B. der Gruppenunterschied zwischen A & B) durch reinen Zufall zustande gekommen ist, ohne das ein wahrer Unterschied (bzw. Effekt) vorliegt. Beträgt diese Warscheinlichkeit unter 5% (manchmal auch unter 1%), schließt man den Zufall als Erklärung aus. Achtung: Diese Festlegung der 5% oder 1%-Grenze (des so genannten Signifikanzniveaus) ist eine Konvention, keine naturgegebene Regel. Wenn der Stichprobenumfang groß genug ist (ein wichtiger Faktor bei der Überprüfung der Signifikanz), können übrigens auch schon kleine Effekte (z.B. Gruppenunterschiede) statistisch signifikant sein. Ob ein solcher kleiner Unterschied dann jedoch wirklich von Bedeutung ist, ist eine andere (inhaltliche) Frage. Wie ihr seht, erweist die Statistik uns sehr wertvolle Dienste – und auch, wenn ich sie in meinem Studium sehr häufig verflucht habe, bin ich rückblickend doch sehr froh, mit ihr jetzt vertraut zu sein.

Warum Ahnung von Wissenschaft Gold wert ist

Das allgemeine Wissen über die Prinzipien wissenschaftlicher Forschung (die nämlich in jeder Naturwissenschaft nahezu gleich sind) erachte ich als extrem wertvoll, weil es einem etwas unglaublich Wichtiges ermöglicht: zu beurteilen, welchen Quellen von Wissen man trauen kann und welchen nicht. Mit den Merkmalen von „guter“, d.h. aussagekräftiger Forschung im Kopf, ist es einem wissenschaftlich ausgebildeten Menschen möglich, zu beurteilen, ob er einer beliebigen Studie (egal, ob veröffentlicht in einer wissenschaftlichen Fachzeitschrift oder erwähnt in der Brigitte) Glauben schenken möchte. Ein solcher Mensch kann die angewandte Methode der Studie genau daraufhin überprüfen, ob die Voraussetzungen dafür geschaffen sind, dass man hieraus tatsächlich gültige Schlussfolgerungen ziehen kann (z.B. interne Validität gegeben, vernünftige operantionale Definition…). Man fällt nicht so schnell darauf rein, wenn es bei RTL in den Nachrichten heißt, Forscher von der Universität XV hätten „herausgefunden, dass…“ (oder noch schlimmer: „bewiesen, dass…“), sondern fragt sich erstmal, wie die Forscher das überhaupt untersucht haben könnten und ob eine solche Aussage auf Basis der verwendeten Forschungsmethode überhaupt zulässig ist. Nicht zuletzt lernt man hierdurch, vermeintliches „Wissen“, das einem im Alltag so begegnet, dahingehend zu hinterfragen, woher es stammt bzw. worauf es basiert – eine Kenntnis von meiner Meinung nach unschätzbarem Wert, ermöglicht es einem doch z.B., der ein oder anderen bunt-schillernden esoterischen Weltanschauung etwas Handfestes entgegen zu setzen und diese als substanzlos zu entlarven. Und eben diese grundsätzliche naturwissenschaftliche Expertise ist das, was Psychologen den Vertretern anderer Fächer (Medizin und Pädagogik eingeschlossen) voraushaben, was sie wiederum aber mit der ebenfalls empirisch orientierten Soziologie verbindet. Darüber, wovon Psychologen darüber hinaus noch so Ahnung haben, wird es im nächsten Artikel gehen.

© Christian Rupp 2013