Intelligenz – Teil 6: „The Bell Curve“ & das dunkelste Kapitel der Psychologie

1994 veröffentlichten die beiden US-Amerikaner Richard Herrnstein und Charles Murray ein Buch namens „The Bell Curve: Intelligence and Class Structure in American Life“, wobei es sich bei der „bell curve“ natürlich um eine Anspielung an die Gauß’sche Glockenkurve handelt, der die IQ-Werte in der Population zumindest annähernd folgen (siehe auch hier). Dieses Buch hat für eine breite Kontroverse und heftige Kritik gesorgt, die man heutzutage wahrscheinlich als shit storm bezeichnen würde. Und das nicht ohne Grund, ziehen die Autoren doch auf Basis wackliger Prämissen Schlussfolgerungen, die schon im Nationalsozialismus en vogue waren.

Ethnische Unterschiede bezüglich der allgemeinen Intelligenz

Der wohl am kritischsten zu betrachtende Aspekt in der Darstellung von Herrnstein und Murray ist die Art und Weise, wie sie auf ethnische Unterschiede hinsichtlich des allgemeinen Intelligenzquotienten verweisen. So gelangen sie auf Basis der gesichteten Studienlage zu dem Schluss, dass in den USA Menschen asiatischer Herkunft in klassischen Intelligenztests wie den Wechsler-Tests durchschnittlich fünf IQ-Punkte mehr erzielen als „weiße“ US-Amerikaner, während Menschen afroamerikanischer Abstammung im Schnitt 15-18 Punkte (d.h. eine ganze Standardabweichung) weniger als „weiße“ Amerikaner erlangen. Nun kann man sich vorstellen, dass diese Befunde vor dem Hintergrund der Art und Weise, wie Afroamerikaner in der Vergangenheit in den USA behandelt wurden, gewaltigen sozialpolitischen Sprengstoff lieferten. Zudem weisen die Autoren darauf hin, dass der IQ von Einwandern zum Zeitpunkt der Immigration im Durchschnitt bei 95 und somit unterhalb des Populationsmittelwerts von 100 liege.

Sozialpolitische Schlussfolgerungen: Afro-Amerikaner und Immigranten loswerden

Nun, diese gefundenen Unterschiede sind zunächst einmal nicht so einfach wegzudiskutieren (worauf sie wahrscheinlich zurückzuführen sind, werde ich später noch beschreiben!), aber das Skandalöse an dem Buch „The Bell Curve“ ist etwas anderes: die sozialpolitischen Schlussfolgerungen und Forderungen, die Herrnstein und Murray daraus ableiten. Insgesamt zielt ihre Argumentation darauf ab, deutlich zu machen, dass durch eine Reihe von Faktoren die mittlere Intelligenz der US-Bürger heruntergedrückt werde und die Gesellschaft somit quasi zugrunde gehe. Hierfür seien eine Reihe von Faktoren verantwortlich. Neben dem nicht geringer werdenden Strom von Einwanderern, die mit ihrer geringeren Intelligenz den Durchschnitt „drücken“ (ebenso wie die afroamerikanische Bevölkerung), liege eine weitere Ursache in der Tatsache, dass Mütter mit unterdurchschnittlichem IQ mehr Kinder bekämen als solche mit durchschnittlichem IQ (was ein korrekter Befund ist). Da Intelligenz größtenteils erblich sei, vermehre sich somit die „dumme“ Bevölkerung immer mehr, während die „schlaue“ immer weniger werde. Aufgrund der angeblich hohen Heritabilität von Intelligenz seien ferner sämtliche großangelegte Fördermaßnahmen mit dem Ziel, Intelligenzunterschiede auszugleichen, völlige Fehlinvestitionen. Und es geht noch weiter: Antidiskriminierungsmaßnahmen, die dazu dienen sollen, Chancengleichheit in der Bevölkerung herzustellen (indem gezielt traditionell benachteiligte Gruppen wie Afroamerikaner gefördert werden), seien nicht nur unnütz, sondern auch ungerecht, da so z.B. Angehörige dieser Gruppen Studienplätze oder Jobs erhielten, für die sie aufgrund ihrer geringen Intelligenz gar nicht qualifiziert seien. Dies wiederum führe nur zu sozialen Spannungen und wachsendem Hass der eigentlich benachteiligten, „weißen“ Bevölkerung auf die afroamerikanische. Außerdem trüge diese Art von Fördermaßnahmen zur Verdummung von Schulen und Universitäten bei. Man solle, so Herrnstein und Murray, lieber die Ungleichbehandlung fortführen, da diese schlichtweg der Realität entspreche. Geld solle man lieber in die Förderung der Begabten (= hoch Intelligenten) stecken, da diese ohnehin bald in der absoluten Minderheit seien. Falls Ihnen diese Argumentationslinie bekannt vorkommt, wird das sehr wahrscheinlich daran liegen, dass ein ehemaliger deutscher Politiker namens Thilo Sarrazin in seinem Buch „Deutschland schafft sich ab“ vor einigen Jahren fast genau die gleichen Thesen aufgegriffen und auf die Einwanderungssituation in Deutschland angewendet hat.

Die Kritik

Die Kritik an „The Bell Curve“ ist allem voran eine Kritik an den von Herrnstein und Murray vorausgesetzten Prämissen. Denn ein Grundkonzept der Philosophie lautet nun einmal, dass ein Argument nur dann Gültigkeit besitzt, wenn die Wahrheit der Prämissen zwangsläufig zur Wahrheit der Schlussfolgerung (Konklusion) führt. Die wichtigsten nicht korrekten Prämissen sind, wie auch bereits von Stephen Jay Gould beschrieben, im Folgenden dargestellt.

Überschätzte Heritabilität

Einer der größten Schwachpunkte an der oben beschriebenen grotesken Argumentation ist in der Tat, dass Intelligenz auf Basis des heutigen Wissensstandes bei weitem nicht so stark erblich bedingt ist wie lange angenommen (was Sie hier nachlesen können). Und selbst wenn dies so wäre, wäre die Schlussfolgerung, die gemessenen IQ-Unterschiede zwischen den verschiedenen Bevölkerungsgruppen seien im unterschiedlichen genetischen Material der Gruppen begründet, immer noch falsch, denn: Die Gruppen unterscheiden sich ganz offenbar auch stark hinsichtlich ihrer Umweltbedingungen (sozioökonomischer Status etc.), sodass man selbst im Sinne der klassischen Verhaltensgenetik folgern muss, dass die Ursache für die Unterschiede unklar ist. Heutzutage gibt es viele Belege dafür, dass die gemessenen IQ-Unterschiede eher nicht auf genetische Unterschiede zurückzuführen sind, sondern sehr viel stärker durch Umweltfaktoren zu erklären sind, vor allem durch den z.B. in der afroamerikanischen Bevölkerung im Durchschnitt deutlich geringeren sozioökonomischen Status, den damit verbundenen schlechteren Zugang zu (in den USA meist sehr teuren) Bildungsangeboten sowie durch diverse psychologische Effekte wie die sich selbsterfüllende Prophezeiung und geringe Leistungserwartungen von Lehrern an afroamerikanische Kinder (die oft von Beginn an mit dem Vorurteil konfrontiert werden, dass sie weniger leistungsfähig sind als „weiße“ Kinder). Hinzu kommen wahrscheinlich Effekte durch schlechtere Englischkenntnisse, die zur Bearbeitung der Intelligenztests erforderlich sind, sowie möglicherweise kulturelle Unterschiede (siehe weiter unten).

Annahme eines für alle Menschen geltenden g-Faktors

Herrnstein und Murray gründen ihre Argumentation unter anderem auf die Prämisse, dass es einen für alle Menschen geltenden Generalfaktor der Intelligenz (g-Faktor) gibt, der im Wesentlichen auch von allen gängigen Intelligenztests gemessen wird. Beide Prämissen sind auf Basis des aktuellen Standes der Wissenschaft nur schwer haltbar, wie Sie auch hier nachlesen können.

Intelligenztests sind für alle ethnischen Gruppen gleich schwierig

Auch diese wichtige Prämisse wird zwar kontrovers diskutiert, ist aber durchaus als heikel einzustufen. Zum einen gibt es Hinweise darauf, dass Menschen in westlich geprägten Kulturen vertrauter sind mit typischen Intelligenztestaufgaben, sodass Menschen aus anderen Kulturen eine Benachteiligung bei der Aufgabenbearbeitung erfahren. Ein sehr pragmatisches Beispiel hierfür sind Untertests zur kristallinen Intelligenz, in denen allgemeines Wissen oder Wortschatz dadurch erfragt wird, dass den getesteten Personen Bilder der jeweiligen Objekte gezeigt werden (wie z.B. im WIE). Hier liegt es auf der Hand, dass die Bilder (z.B. Autos, Armbanduhren, Häuser) stark von derjenigen Kultur geprägt sind, in der der Test entwickelt wurde – und dass Menschen aus anderen Kulturkreisen hiermit weitaus weniger vertraut sein mögen. Verknüpft damit ist der zweite Aspekt, der beinhaltet, dass das Verständnis von Intelligenz, auf dem etablierte Intelligenztests beruhen, stark durch die westliche Kultur geprägt ist, die Intelligenz weitgehend als Ausmaß der Effizienz der Informationsverarbeitung sieht. Wie Sie hier nachlesen können, hängt die Definition von „Intelligenz“ jedoch stark vom kulturellen Umfeld ab, sodass eine Benachteiligung dadurch entsteht, dass eines von vielen verschiedenen Intelligenzkonzepten gleichsam auf alle Menschen angewendet wird. Ein ganz zentrales Element, das eine Benachteiligung nach sich zieht, sind zudem die ungleich guten Sprachkenntnisse der getesteten Menschen, also z.B. bei Einwanderern in die USA die Englischkenntnisse. Es erscheint relativ logisch, dass bei mangelndem sprachlichen Verständnis der Aufgaben (und das ist bei jedem Intelligenztest erforderlich) schlechtere Testergebnisse resultieren, weil die Voraussetzung dafür, dass Intelligenz überhaupt gemessen werden kann, gar nicht erfüllt ist.

Fehler in der Analyse der zugrunde gelegten Studien

Zusätzlich zu den bereits genannten Punkten muss man den Autoren von „The Bell Curve“ außerdem noch eine Reihe methodischer und statistischer Fehler bei der Analyse der herangezogenen Studien vorwerfen. Zum einen wäre da der wirklich sehr grobe Schnitzer, einen Korrelationszusammenhang, der grundsätzlich ungerichtet ist, auf kausale Weise zu interpretieren. Gemeint ist hier der Zusammenhang zwischen dem sozioökonomischen Status und Intelligenz, wobei Herrnstein und Murray verzweifelt versuchen, scheinbar zu beweisen, dass ein niedriger IQ die Ursache eines niedrigen sozioökonomischen Status ist und nicht umgekehrt. Was hierbei jedoch Ursache und was Wirkung ist, ist nicht eindeutig geklärt, und das Allerwahrscheinlichste und zugleich Logischste ist, dass beide Faktoren sich im Laufe eines Menschenlebens gegenseitig beeinflussen: Intelligenz ist förderlich dabei, einen hohen Bildungsstand zu erreichen und somit das Armutsrisiko zu reduzieren, aber ebenso beeinflussen der sozioökonomischen Status und die damit verbundenen Förderbedingungen in der Ursprungsfamilie maßgeblich, wie sich die Intelligenz eines Menschen entwickelt. Meiner Meinung nach muss man sogar sagen, dass es letztlich unmöglich ist, diese beiden Variablen zu trennen, weil sie derart stark verflochten und voneinander abhängig sind. Und da wir es hier sowohl auf Seiten der Intelligenz als auch auf Seiten des sozioökonomischen Status mit zahlreichen anderen Variablen zu tun haben, die mit beidem zusammenhängen, aber so gut wie nie in Studien berücksichtigt und kontrolliert wurden, werden vernünftige Schlussfolgerungen noch zusätzlich erschwert.

Zweitens kann man Herrnstein und Murray für die Auswahl der zugrunde gelegten Originalarbeiten kritisieren: So beziehen sie sich auf mehrere Studien, die methodisch mehr als zweifelhaft sind (z.B. weil lediglich IQ-Unterschiede zwischen Gruppen, aber keine Gruppenmittelwerte berichtet werden oder weil die gemessenen niedrigeren IQ-Werte von südafrikanischen Kindern offensichtlich auf kaum vorhandene Englischkenntnisse zurückgehen). Drittens muss man den beiden Autoren vorhalten, dass sie bei der Analyse der Studien selektiv solche aussortierten, die nicht ins Bild passten – z.B. Daten von südafrikanischen (schwarzen) Schülern, die in einem Intelligenztest im Durchschnitt besser abschnitten als weiße Schüler. Somit ist die Analyse von Herrnstein und Murray alles andere als ausgewogen.

Eugenik – künstliche Selektion zur Rettung der Menschheit

Die Eugenik ist zweifelsohne das dunkelste und grausamste Kapitel der Psychologie, das traurigerweise kaum Inhalt der akademischen Lehrpläne in diesem Fach ist. Gemeint ist mit diesem Begriff eine Form der künstlichen Selektion der Art, dass die Fortpflanzung dahingehend beeinflusst wird, dass Nachkommen mit gewünschten Eigenschaften (z.B. hoher Intelligenz) entstehen – entweder durch Förderung der Fortpflanzung „wertvoller“ Menschen (positive Eugenik) oder durch die Hinderung „minderwertiger“ Menschen daran, sich fortzupflanzen (negative Eugenik). Ein leidenschaftlicher Verfechter dieser Konzepte war in der zweiten Hälfte des 19. Jahrhunderts Sir Francis Galton, der, begeistert vom Werk „Die Entstehung der Arten“ seines Cousins Charles Darwin, die These aufstellte, dass die natürliche Selektion des Menschen dadurch behindert werde, dass die Gesellschaft ihre schwachen Mitglieder schütze. Daher, so Galton, sei eine künstliche Selektion im Sinne der Eugenik nötig, weil sich sonst die weniger intelligenten Menschen stärker vermehren und so zum Niedergang der menschlichen Rasse führen würden (man merkt: Sowohl die Ideen von Herrnstein und Murray als auch die Thilo Sarrazins sind schon recht alt). Niedrige Intelligenz war bereits damals mit der Einwanderungsgesellschaft und der afroamerikanischen Bevölkerung assoziiert, und Galton war fest davon überzeugt, dass Intelligenz erblich bedingt sei. Daher lag die Schlussfolgerung nahe, die Selektion (und so die „Rettung der Menschheit“) dadurch voranzutreiben, dass man jene „minderintelligenten“ Gruppen von der Fortpflanzung abhalten möge.

Konkret war die politisch bald durchgesetzte Folgerung hieraus die Sterilisation entsprechender Personengruppen. Diese bezog sich allerdings nicht auf alle oben genannten Bevölkerungsgruppen, sondern laut dem US-amerikanischen Model Eugenic Sterilization Law (1922) u.a. auf „Minderbegabte“, „Wahnsinnige“, Blinde, Behinderte, Kriminelle, Epileptiker, Obdachlose und Waisenkinder. Und man sollte nicht davon ausgehen, dass diese nicht durchgeführt wurde: So schätzte das Journal of the American Medical Association, dass allein in den USA zwischen 1941 und 1942 über 42000 Personen zwangssterilisiert wurden. Aber damit nicht genug: Neben den USA etablierte eine Fülle weiterer Länder in der Folge eigene Eugenik-Programme (sowohl positive als auch negative), darunter auch Schweden, Kanada, Australien, Norwegen, Finnland und die Schweiz. Trauriger Spitzenreiter war in der Zeit des Nationalsozialismus Deutschland, wo bis zum Ende des 2. Weltkriegs mehr als eine halbe Million Menschen wegen „Verdachts auf Erbdefekte“ oder „Gefahr der Rassenverunreinigung“ zwangssterilisiert wurden – worunter neben geistig und körperlich behinderten Menschen auch „Asoziale“ wie Sinti, Roma und Alkoholiker sowie Homosexuelle (hier entzieht sich mir selbst der vermeintliche Sinn), Prostituierte und Fremdrassige (v.a. Menschen afrikanischer und arabischer Abstammung) fielen. Dies gipfelte schließlich in den rund 100.000 Euthanasiemorden, die die Nazis im Rahmen der „Aktion T4“ an behinderten Menschen verübten. Ein Beispiel für positive Eugenik war zudem der vom NS-Regime ins Leben gerufene Lebensborn, der zum Ziel hatte, die Geburtenrate „reinrassig-arischer“ Kinder zu steigern.

Das einzig Gute an alldem war (wenn man in diesem Zusammenhang überhaupt das Wort „gut“ verwenden darf), dass nach Ende des 2. Weltkriegs das internationale Ansehen der Eugenik drastisch abnahm, weil kaum ein Land mit den Gräueltaten Deutschlands in Verbindung gebracht werden wollte. Die Eugenikprogramme der meisten Länder wurden eingestellt, und 1948 verabschiedeten die Vereinten Nationen eine Resolution, gemäß derer es allen Männern und Frauen unabhängig von ihrer Nationalität, Ethnie, etc. erlaubt sein sollte, zu heiraten und eine Familie zu gründen.

Eine Warnung: Damit Deutschland sich nicht abschafft

Es wäre falsch, zu sagen, dass das Buch von Herrnstein und Murray direkt zur Eugenik aufruft. Dennoch finden sich in der Argumentationslinie und den gezogenen Schlussfolgerungen ganz klar Parallelen zu den Konzepten und Praktiken der Eugenik (keine Förderung der Schwachen, Bewahrung der Menschheit vor der Überbevölkerung durch die „Minderintelligenten“), die von Thilo Sarrazin gleichermaßen für Deutschland übernommen wurden. Auch nicht gerade ein gutes Licht auf „The Bell Curve“ wirft die Tatsache, dass Herrnstein und Murray sich einer großen Zahl von Originalarbeiten Richard Lynns bedienen, der nicht nur als bekannter Intelligenzforscher, sondern auch als bekennender Verfechter der Eugenik bekannt ist und z.B. befürwortet, Embryonen bei der künstlichen Befruchtung auf genetische Eigenschaften hin zu untersuchen und nur die „besten“ zu verwenden.

Auffällig ist bei Lynn, dass er kein Demagoge ist, der die Gesellschaft aufhetzen will. Er ist Wissenschaftler und hat größtenteils die unbegrenzte Nutzung wissenschaftlich angesammelten Wissens als Ziel vor Augen. Diese mechanistische Denkweise ist allerdings eine, die meiner Ansicht nach niemals Macht erlangen sollte. Denn was Lynn völlig außer Acht lässt, sind all die ethischen Probleme und Menschenrechtskontroversen, die dies mit sich führen würde. Aber was ist die Alternative? Politiker wie Thilo Sarrazin, die mit menschenverachtendem Vokabular zur „Eugenik 2.0“ aufrufen? Bitte nicht. Was bleibt, ist die Hoffnung in die wirklich klugen Köpfe unserer Gesellschaft, die in der Lage sind, Weltanschauung und wissenschaftliche Befunde auf konstruktive Art und Weise miteinander zu verbinden, anstatt immer neue Katastrophen herbeizuschwören und noch katastrophalere Lösungen vorzuschlagen.

 

Intelligenz – Teil 5: Ist unser IQ ausschließlich genetisch bedingt?

Vielen Lesern mag diese Frage allein schon seltsam vorkommen, herrscht doch in vielen Bereichen unserer Gesellschaft doch die Meinung vor, dass Menschen hinsichtlich ihrer Fähigkeiten stark formbar sind. Schließlich schicken wir unsere Kinder in die Schule, regen sie bei schlechten Noten an, sich anzustrengen und besorgen ihnen eine nette Nachhilfelehrerin. Die in der Überschrift gestellte Frage ist jedoch berechtigt, herrschte (und herrscht oft heute noch) in der Psychologie doch die Ansicht vor, dass die allgemeine Intelligenz des Menschen ein Merkmal darstellt, das zu einem vergleichsweise großen Anteil vererbt wird, d.h. genetisch determiniert ist. Da man in der Psychologie ebenso wie in der gesamten Wissenschaft ziemlich sicher ist, dass kaum ein menschliches Merkmal (mit Ausnahme von Dingen wie Augenfarbe und Blutgruppe) zu 100% genetisch bestimmt ist, begann man vor einigen Jahrzehnten, sich der Frage nach dem Anteil zu widmen, der auf genetische einerseits und Umwelteinflüsse andererseits zurückzuführen ist. Der Wissenschaftszweig, der sich hieraus entwickelte, nennt sich Verhaltensgenetik.

Das Konzept der Heritabilität

Den Grad der Erblichkeit eines Merkmals wie Intelligenz vernünftig zu berechnen, ist alles andere als einfach. In der Regel wird als Anhaltspunkt die so genannte Heritabilität berechnet, welche zweifelsohne zu den Messgrößen gehört, die am häufigsten falsch und vor allem überinterpretiert werden. Meistens wird die Heritabilität auf Basis von Zwillingsstudien berechnet. Das sind Studien, in denen eineiige (die zu 100% dieselben Gene besitzen) oder aber zweieiige Zwillinge (die durchschnittlich, aber nicht immer genau, 50% der Gene teilen – genau wie „normale“ Geschwister) dahingehend untersucht werden, inwieweit jedes der untersuchten Zwillingspaare hinsichtlich eines bestimmten Merkmals übereinstimmt. In unserem Fall bedeutet das: Bei beiden Zwillingen wird der IQ gemessen, und dann wird über die gesamte Stichprobe von Zwillingspaaren die Korrelation berechnet, sodass man ein Maß dafür erhält, wie groß über alle Zwillingspaare hinweg die durchschnittliche Übereinstimmung zwischen Zwilling A und Zwilling B ist. Wenn ein Merkmal stark genetisch bedingt ist, würde man erwarten, dass die Korrelation bezüglich dieses Merkmals bei eineiigen Zwillingen sehr viel größer ausfällt als bei zweieiigen. Diese Korrelation wird nun für eineiige und zweieiige Zwillinge separat berechnet, und die Heritabilität stellt ein Maß dar, das diese beiden Korrelationen zueinander ins Verhältnis setzt. Daher variiert auch die Heritabilität zwischen 0% und 100%, wobei der errechnete Prozentsatz, genau gesagt, den Anteil an der Gesamtvarianz eines bestimmten messbaren Merkmals (wie Intelligenz) in einer Population wiedergibt, der auf genetische Unterschiede zurückgeführt werden kann. Mit anderen Worten: Eine Heritabilität von 50% würde z.B. bedeuten, dass 50% der Varianz (also der Streuung) der Intelligenzwerte in der gesamten Population (wofür die Stichprobe stellvertretend ist) auf genetische Unterschiede der Menschen zurückgeführt werden kann. Oder noch anders ausgedrückt: Es bedeutet, dass 50% der IQ-Unterschiede innerhalb der gemessenen Gruppe mit den genetischen Unterschiedenen der Gruppenmitglieder (linear) zusammenhängen. Für das Merkmal Intelligenz wurden so in der Vergangenheit meist Heritabilitätswerte zwischen 70 und 80% berichtet, was ziemlich hohe Werte sind.

Kritik am Konzept der Heritabilität

Keine Aussagen über einzelne Personen

Der wichtigste Aspekt ist hierbei, dass die Heritabilität sich immer nur auf die Population oder, genau genommen, auf die Stichprobe von Individuen bezieht, bei denen das Merkmal erhoben wurde. Die Prozentzahl kann somit nicht herangezogen werden, um Aussagen über eine einzelne Person zu treffen: Die Aussage „Bei jeder einzelnen Person ist die Intelligenz zu 80% genetisch bedingt“ ist daher nicht korrekt.

Mutmaßung statt Messung und irreführende Prozentzahlen

Außerdem ist es wichtig, anzumerken, dass bei alledem der Grad der genetischen Übereinstimmung einfach auf einen bestimmten Wert festgelegt wird. Das ist bei eineiigen Zwillingen (da sind die 100% unumstößlich) weit weniger problematisch als bei zweieiigen: Da nämlich ist der durchschnittliche Wert 50%, aber dieser kann erheblich variieren. Es würde also mehr Sinn machen, die tatsächliche Übereinstimmung zu messen anstatt sie zu schätzen – das allerdings würde den Aufwand einer solchen ohnehin komplexen Studie ins nahezu Unermessliche steigern. Übrigens: Die Zahl 50% ist hochgradig irreführend, weil alle Menschen (egal welcher ethnischer Abstammung) 100% aller Gene gemeinsam haben. Die Unterschiede liegen in den Genvarianten, den Allelen – und selbst diese sind bei allen Menschen zu 99,9% gleich. Die gesamte Varianz des menschlichen Erscheinungsbildes spielt sich also in diesen 0,1% ab – und wenn es heißt, zweieiige Zwillinge hätten 50% ihrer Gene gemeinsam, so bezieht sich das lediglich auf 50% dieser 0,1% der Allele. Korrekt wäre also eigentlich die Aussage: Zweieiige Zwillinge teilen 99,95% ihrer Allele, und eineiige 100%.

Aussagen sind zeitlich beschränkt

Der zweite Kritikpunkt betrifft die Tatsache, dass die Schätzung der Heritabilität immer nur eine Momentaufnahme darstellt, d.h. immer nur die Rolle des aktuell aktivierten genetischen Materials wiederspiegelt. Wie man aber inzwischen weiß, werden die unterschiedlichen Gene im Laufe eines menschlichen Lebens ziemlich häufig an- und wieder abgeschaltet, sodass die Heritabilität keine Schätzung über zum Zeitpunkt der Messung nicht aktiviertes genetisches Potenzial erlaubt.

Nicht mehr als ein Verhältnismaß

Das wohl wichtigste Argument gegen die Heritabilität, welches deren Interpretierbarkeit stark eingrenzt, ist die Tatsache, dass es sich hierbei, wenn man die Formel einmal übersetzt, um nicht mehr als ein Verhältnismaß handelt, das die genetische Varianz in einer Stichprobe ins Verhältnis setzt zur Umweltvarianz (also der Unterschiedlichkeit der Umweltbedingungen) in derselben Stichprobe. Das bedeutet, die berechnete Heritabilität ist von beidem abhängig. Das scheint trivial, ist aber von großer Bedeutung: Wenn nämlich aus Gründen der mangelnden Repräsentativität der Stichprobe z.B. die Umweltvarianz sehr gering ist (weil sich in der Stichprobe z.B. nur nordamerikanische Männer aus der Mittelschicht befinden, die alle unter ähnlichen Umweltbedingungen leben), dann wird die Heritabilität zwangsläufig hoch ausfallen, weil die genetische Varianz in der Regel größer ist. Und in der Tat ist es so, dass viele der Studien, die zur Berechnung der Heritabilität durchgeführt wurden, genau diesen Schwachpunkt haben, was den Schluss nahelegt, dass die Heritabilität durch diese deutlich überschätzt wird – weil in den Stichproben gar nicht genug Umweltvarianz vorliegt, um dieses Maß sinnvoll zu deuten. Tatsächlich führt dieser Umstand oft zu seltsamen Phänomen und mitunter auch zu bildungspolitischen Fehlentscheidungen. So kam es z.B. bereits vor, dass Regierungen durch diverse Maßnahmen die Chancengleichheit von Kindern verbesserten und somit quasi die Umweltvarianz reduzierten, weil sich die Bedingungen, unter denen die Kinder lebten, dadurch ähnlicher wurden. Wenn dann z.B. durch Schultests der Bildungserfolg (der nun als weiteres Merkmal analog zur Intelligenz zu sehen ist) der Kinder gemessen und damit die „Heritabilität des Bildungserfolgs“ berechnet wird, kommt natürlich ein hoher Wert dabei heraus – der dann von (dummen) Politikern dahingehend fehlgedeutet wird, dass das Schaffen von Chancengleichheit völliger Quatsch ist, da der Bildungserfolg ja offenbar doch nur von der genetischen Ausstattung der Kinder abhängt. Ein Beispiel für einen grandiosen Fehlschluss.

Weitere Kritik an der Verhaltensgenetik

Neben diesen eklatanten Nachteilen des Konstrukts „Heritabilität“ gibt es diverse weitere Kritikpunkte an der klassischen Verhaltensgenetik. Diese Punkte betreffen vor allem die eher steinzeitliche Auffassung von Genetik und die ziemlich stiefmütterliche Behandlung des Umweltfaktors.

Konzeption von „Genetik“

Wie schon beschrieben, wird in der klassischen Verhaltensgenetik der Grad der genetischen Übereinstimmung zwischen Menschen nicht gemessen bzw. erfasst, sondern aufgrund bestimmter Annahmen geschätzt (z.B. auf 50%). Das allein ist bereits wissenschaftlich ziemlich unbefriedigend. Hinzu kommt, dass man inzwischen (z.B. in der molekularen Verhaltensgenetik) sehr viel weiter ist und eine Fülle verschiedener Arten von „Genvarianz“ unterscheidet – unter anderem die Varianz, die dadurch entsteht, dass unterschiedliche Allele an weit voneinander entfernten Orten im Genom (d.h. der Gesamtheit aller Gene) miteinander interagieren. Im Rahmen von so genannten Kopplungs- und Assoziationsstudien wird zudem durch den Scan des menschlichen Genoms untersucht, welche bestimmten Allele in Zusammenhang mit bestimmten Merkmalen wie z.B. psychischen Störungen stehen.

Konzeption von „Umwelt“

Man muss wohl zugeben, dass der Begriff „Umwelt“ so ziemlich einer der schwammigsten in der gesamten Psychologie ist. Gemeint ist hiermit die Summe an externen Faktoren, die einen Menschen in seiner Entwicklung von Geburt an beeinflussen – d.h. ungefähr alles von Ernährung und Klimabedingungen über Einkommen und Bildungsniveau der Eltern (oft zusammengefasst zum sozioökonomischen Status) bis hin zum elterlichen Erziehungsstil, den zur Verfügung gestellten Förderbedingungen und der Art der Eltern-Kind-Bindung. Das Problem hieran: Die Gleichheit oder Unterschiedlichkeit der Umwelt wurde und wird in der klassischen Verhaltensgenetik nie ausreichend präzise erfasst. Stattdessen verlässt man sich auch hier viel zu oft auf Daumenregeln, wie z.B. in den auch sehr beliebten Adoptionsstudien. Diese wurden lange als die beste Art von Studien gesehen, um den Einfluss von Umwelt und Genetik auf ein bestimmtes Merkmal voneinander zu trennen. Untersucht wurden hierbei eineiige Zwillingspaare (die also genetisch identisch ausgestattet sind), die jedoch von jeweils unterschiedlichen Familien adoptiert wurden. Die Annahme, die man hierbei meist getroffen hat, ist, dass die Umwelt der beiden Zwillinge im Gegensatz zum genetischen Faktor somit unterschiedlich ist. Sehr viele Psychologen haben in der Vergangenheit immer wieder betont, dass später gefundene Übereinstimmungen der Zwillinge, z.B. bzgl. des IQs, somit auf die gemeinsamen Gene zurückgeführt werden können. Dieser Schluss ist jedoch falsch: In Wirklichkeit ist es umgekehrt, weil vielmehr die gefundenen Unterschiede interessant sind – denn diese müssen zwangsläufig auf die Umwelt zurückzuführen sein. Die Schlussfolgerung ist aber aus noch einem zweiten Grund nicht korrekt: Übereinstimmungen zwischen solchen getrennt aufgewachsenen Zwillingen können ebenso auch auf die Umweltbedingungen zurückzuführen sein, denn diese sind in der Tat bei weitem nicht so unterschiedlich wie oft vermutet. Dies geht unter anderem zurück auf die bei Adoptionen weit verbreitete Praktik der selektiven Platzierung, die beinhaltet, dass die zuständigen Behörden darauf achten, dass die Adoptivfamilie der biologischen Familie des Kindes möglichst ähnlich ist. Untermauert wird diese bedeutende Rolle der Umwelt ferner durch eine Studie von Bronfenbrenner (1975), die zeigen konnte, dass die Übereinstimmungsrate (zu verstehen wie eine Korrelation) zwischen den IQ-Werten eineiiger Zwillinge stolze 0,80 betrug, wenn die Umwelten der getrennt aufgewachsenen Zwillinge sich stark ähnelten. War diese Ähnlichkeit jedoch nicht gegeben, lag die Übereinstimmung bei dem sehr viel niedrigeren Wert von 0,28. Insgesamt lässt sich hiermit also festhalten, dass durch die in der klassischen Verhaltensgenetik etablierten Methoden die Unterschiedlichkeit der Umwelt (also die Umweltvarianz) systematisch und erheblich unterschätzt wurde. So liegen z.B. sehr robuste Befunde dafür vor, dass gute Ernährung und insbesondere das Stillen sich positiv auf die spätere Intelligenz auswirken (die Unterschiede liegen im Bereich von 2 – 4 IQ-Punkten), während der mütterliche Alkohol- und Tabakkonsum sich negativ auswirken und im Falle von Alkoholkonsum (bei dem die Menge übrigens keine Rolle spielt!) sogar ein fetales Alkoholsyndrom (FAS) resultieren kann.

Gen-Umwelt-Interaktion

Das stärkste Argument gegen die klassischen Verhaltensgenetik kommt zum Schluss. Nämlich die Tatsache, dass es unangemessen ist, von einem additiven Verhältnis von Genetik und Umwelt auszugehen – was die klassischen Verhaltensgenetik jedoch tut und was sich auch in Maßen wie der Heritabilität wiederspiegelt. Denn nur wenn man davon ausgeht, dass Umwelt und Genetik eine Summe bilden, macht es Sinn, ein Verhältnis zu bilden, das eine Aussage darüber trifft, wie viel Prozent eines Merkmals auf Gene und wie viel auf Umwelt zurückzuführen sind. Inzwischen weiß man allerdings, dass diese Ansicht grundlegend falsch ist, sodass die additive Sicht inzwischen durch das Konzept der Gen-Umwelt-Interaktion ersetzt wurde. Gemeint ist hiermit, dass Gen- und Umweltfaktoren nicht einfach immer mit dem gleichen Gewicht aufeinander treffen, sondern dass bestimmte Umweltfaktoren je nach genetischer Ausstattung unterschiedlich wirksam sein können – ebenso wie dass bestimmte genetische Anlagen einer „Aktivierung“ aus der Umwelt bedürfen, ohne die sie nicht wirksam werden können. Mit anderen Worten: Umwelt und Genetik sind voneinander abhängig und greifen wie Zahnräder ineinander. So gibt es z.B. aus dem Bereich der Intelligenzforschung sehr überzeugende Befunde, dass gute genetische Anlagen nur dann zu einer hohen Intelligenz in einem späteren Alter führen, wenn das Kind in einer Umwelt aufwächst, in der seine Fähigkeiten gefördert werden. Ebenso für die Bedeutung der Umwelt spricht, dass sich die Befunde mehren, dass vernünftig konzipierte Intelligenztrainings eine nachweisbare (wenn auch nicht exorbitant große) Wirkung zeigen. Was genau man sich unter einer Gen-Umwelt-Interaktion vorstellen kann, habe ich übrigens auch in einer meiner hochgeladenen Präsentationen erklärt – am Beispiel von Depressionen. Die Präsentation finden Sie hier.

Insgesamt legt all dies das Fazit nahe, dass durch unsere genetische Ausstattung offenbar zwar ein gewisser Rahmen abgesteckt wird, innerhalb dessen sich unsere letztliche Intelligenz später einmal bewegt – aber dass die Umwelt auf das endgültige „Ergebnis“ einen sehr viel größeren Einfluss hat als lange angenommen. Dass jedoch die Bedeutung der Umwelt lange unterschätzt, ignoriert und als unwissenschaftlich abgewertet wurde, hatte erhebliche soziale und politische Konsequenzen, was uns zu einem sehr dunklen Kapitel der klassischen Verhaltensgenetik – und somit der Psychologie – bringt. Dieses wird Teil des nächsten und letzten Artikels der Intelligenz-Reihe sein, der mir aufgrund seiner gesellschaftlichen Bedeutung so sehr am Herzen liegt wie nur wenige andere.

 © Christian Rupp 2014

Intelligenz – Teil 4: Was messen IQ-Tests und worin besteht ihre Berechtigung?

Nachdem es in Teil 3 darum ging, wie sich der so genannte „IQ“ berechnet und wie er zu interpretieren ist, widmet dieser Artikel sich der Frage: Wie lässt sich Intelligenz messen? Und messen Intelligenztests tatsächlich Intelligenz?

Die verschiedenen Arten von Intelligenztests lassen sich ganz grob in zwei Gruppen einteilen. Anhand ihrer Verbreitung und Etabliertheit habe ich diese zwei Kategorien einmal „untypisch“ und „typisch“ getauft.

„Untypische“ Vertreter

In diese Kategorie fallen zu allererst einmal die so genannten elementaren kognitiven Aufgaben (kurz EKAs). Hierbei handelt es sich um eine Reihe relativ einfacher Aufgaben, z.B. die Identifikation von präsentierten Reizen (Kreis oder Quadrat?), die Unterscheidung von Reizen (Welcher der zwei Töne ist höher?) oder die Erinnerungsleistung in Kurzzeitgedächtnisaufgaben (z.B. maximale Zahl von Zahlen, die jemand, unmittelbar nachdem er sie gehört hat, in derselben Reihenfolge wiedergeben kann). Die Variablen, die hier als Maß für Intelligenz herangezogen werden, sind unter anderem die Reaktionszeit, die so genannte inspection time (Zeit, die jemand benötigt, um z.B. zu sagen, welche von zwei Linien länger ist) oder aber auch mit dem EEG gemessene ereigniskorrelierte Potenziale, wobei die Dauer bis zum Auftreten des Pozentials im EEG (die so genannte Latenz) als Maß für die Verarbeitungsgeschwindigkeit herangezogen wird, die wiederum Intelligenz widerspiegeln soll. Zur Validität der EKAs (also der Frage, in wiefern diese tatsächlich Intelligenz messen), liegen divergierende Befunde vor. Untersucht wurde diese Fragestellung, indem der lineare Zusammenhang (die Korrelation) zwischen der Leistung in EKAs und der Leistung in „typischen“ Intelligenztests berechnet wurde. Diese Korrelation allerdings schwankt in den verschiedenen Studien zwischen 0,35 und 0,70 – mit anderen Worten: Der Zusammenhang ist nicht bombig, und es ist wenig naheliegend, die Leistung in EKAs als alleinigen Indikator für Intelligenz zu betrachten. Ähnliches gilt für die Gehirngröße (gemessen z.B. per MRT bei lebenden oder aber direkt am Objekt  bei toten Menschen), die laut einer Metaanalyse von McDaniel (2005) eine Korrelation von 0,33 mit der Leistung in typischen Intelligenztests aufweist. Dass hier kein so besonders großer Zusammenhang besteht, ist wenig verwunderlich, wenn man bedenkt, dass die Art der synaptischen Vernetzung in unserem Gehirn sehr viel wichtiger für die reibungslose Verarbeitung von Informationen ist als dessen einfaches Volumen.

Zweitens wären da eine Reihe von Tests, die offenkundig „typischen“ Vertretern ähneln, sich aber dadurch von diesen unterscheiden, dass sie den Generalfaktor g ablehnen, d.h. nicht von einem, allen Facetten übergeordneten allgemeinen Intelligenzfaktor ausgehen, sondern von mehreren voneinander unabhängigen Faktoren. In der Tat stellen die von diesen Tests postulierten Faktoren meist elementare kognitive Funktionen (ähnlich den EKAs) dar – und keine Intelligenzkomponenten, wie in den in Teil 2 beschriebenen Modellen aufgeführt. In diese Kategorie fallen z.B. das Cognitive Assessment System (CAS) und die Kaufman-Tests (z.B. das „K-ABC“). Während das CAS u.a. die Faktoren Planung (Strategien zur Problemlösung entwickeln) und Simultanität (getrennte Objekte zu etwas Ganzem integrieren) erfasst, unterscheidet das K-ABC zwischen erworbenen Fertigkeiten (Rechnen und Schreiben), simultaner Verarbeitung (Matrizen-Aufgaben der Sorte „Welches Bild ergänzt das Muster?“) und sequenzieller Verarbeitung (z.B. Zahlen nachsprechen). Wichtig beim K-ABC: Nur diese letzten zwei Faktoren sollen die kognitive Leistungsfähigkeit widerspiegeln; erworbene Fähigkeiten werden isoliert hiervon betrachtet.

„Typische“ Vertreter

Zu den typischen Vertretern gehören alle psychometrischen Tests, d.h. solche, die in der Regel auf einem bestimmten Intelligenzmodell (siehe Teil 2) basieren, eine Reihe verschiedener Aufgabentypen beinhalten, die normiert sind (damit die Leistung der getesten Person mit der von hinsichtlich Alter und Geschlecht ähnlichen Personen verglichen werden kann) und (das ist zentral) deren Gütekriterien (Objektivität, Reliabilität, Validität) überprüft wurden und als gesichert gelten.

Die meisten dieser Tests basieren auf Modellen, die einen g-Faktor annehmen, und ermöglichen daher auch die Berechnung eines allgemeinen Intelligenzquotienten. Ein Beispiel hierfür sind die Wechsler-Intelligenztests, z.B. der WIE (Wechsler-Intelligenztest für Erwachsene) oder der HAWIK-IV (Hamburg-Wechsler-Intelligenztest für Kinder, 4. Auflage). In den Wechsler-Tests gibt es u.a. die typischen Aufgabenbereiche Allgemeines Wissen, Finden von Gemeinsamkeiten, Matrizen ergänzen, Mosaike legen, Zahlen nachsprechen (vorwärts und rückwärts) und Kopfrechnen. Während die Wechsler-Tests sowohl die Berechnung der allgemeinen Intelligenz als auch verschiedener Unterfacetten ermöglichen, erlauben die so genannten Raven-Tests, die ausschließlich aus Matrizenaufgaben bestehen, nur die Berechnung eines allgemeinen IQs. Der Intelligenzstruktur-Tests (IST-2000-R), der auf dem Modell von Thurstone basiert, ermöglicht hingegen nur die Berechnung von IQ-Werten für die Bereiche schlussfolgerndes Denken (verbal, figural und numerisch) und Merkfähigkeit (verbal und figural). Zusätzlich gibt es einen Wissenstest, der aber nicht obligatorisch ist und am ehesten kristalline Intelligenz widerspiegelt.

Wozu das ganze? Der Sinn der Intelligenzmessung.

Nun kann man sich fragen, was es einem bringt, die Intelligenz einen Menschen (bzw. das, was diese ganzen Tests vorgeben, zu messen) zu erfassen. Die selbstwertregulierende Funktion liegt auf der Hand (es ist natürlich schön, von sich sagen zu können, dass man intelligenter als 99% der restlichen Menschheit ist), aber das ist zum Glück nicht alles.

Diagnostik von Intelligenzminderung & Hochbegabung

In der Tat sind Intelligenztests ein extrem wichtiges diagnostisches Instrument, das in vielen Bereichen zum Einsatz kommt. Im Bereich der pädagogischen Psychologie sind da z.B. die Diagnostik von Teilleistungsstörungen wie Lesestörungen, Rechtschreibstörungen und Dyskalkulie (Rechenstörung) zu nennen, zu deren Diagnose nämlich die Leistung im jeweils beeinträchtigten Bereich mindestens zwei Standardabweichungen (also deutlich) unterhalb der allgemeinen Intelligenz liegen müssen (um auszuschließen, dass es sich um eine generelle Intelligenzminderung oder gar eine geistige Behinderung handelt). Aber auch am anderen Ende der Skala ergibt sich ein wichtiges Anwendungsfeld: die Hochbegabtendiagnostik. Die ist deshalb so wichtig, weil es bei solchen Kindern von großer Bedeutung ist, diese hohe Intelligenz zu fördern, um Unterforderungserleben zu verhindern, das sonst leicht zu Problemen führen kann (z.B. weil das Kind den Unterricht stört oder sich zurückzieht). Vielleicht denken Sie hierbei auch gleichzeitig an die Diagnose einer ADHS. Das ist völlig richtig, denn auch zu dieser Diagnose muss eine Hochbegabung (genauso wie eine geistige Behinderung) als Ursache des unangepassten Verhaltens des Kindes ausgeschlossen werden.

Bewerberauswahl und Vorhersage des Schulerfolgs

Die weiteren Anwendungsgebiete von Intelligenztests ergeben sich aus der breitgefächerten prädiktiven Validität von Intelligenztests, d.h. aus der Tatsache, dass sich durch die Intelligenzleistung zu einem bestimmten Zeitpunkt bestimmte andere Variablen ziemlich gut vorhersagen lassen. So zeigte z.B. eine Metaanalyse von Schmidt und Hunter aus dem Jahr 1998, dass die allgemeine Intelligenz zu 0,54 mit dem späteren Arbeitserfolg bzw. der beruflichen Leistung korrelierte – damit sind Intelligenztests diejenige Methode mit der besten Vorhersagekraft für Berufserfolg. Trotz dieser Erkenntnis bevorzugen die meisten Unternehmen bei der Bewerberauswahl jedoch die sehr viel teureren Assessment-Center, wobei die Argumente hierfür denkbar schwach sind: Die Leistung in diesen korreliert nämlich im Mittel nur zu 0,37 mit späterem Berufserfolg. Ähnliche Korrelationen ergeben sich für die Beziehung von Intelligenz und Schulerfolg, gemessen z.B. durch die Schulnote. Diese schwanken nach Deary und Kollegen (2007) zwischen 0,43 im Fach Kunst und 0,77 im Fach Mathematik (und das ist in der Psychologie eine wirklich verdammt hohe Korrelation). Als Anwendungsfeld ergibt sich hierbei z.B. die Verteilung von Kindern auf verschiedene Schulformen, um eine jeweils optimale Förderung zu ermöglichen.

Von Haftstrafen bis Krebs

Die Vorhersagekraft der allgemeinen Intelligenz ist jedoch noch sehr viel größer. Eine große Zahl von Längsschnittstudien (d.h. solchen, die z.B. in der Kindheit den IQ messen und dann über die folgenden 20 Jahre weitere Variablen erfassen) wurde zu diesem Thema durchgeführt und führte zu verblüffenden Ergebnissen. So zeigte sich, dass mit steigendem IQ das Risiko für Arbeitslosigkeit und Armut abnimmt, ebenso wie für Scheidungen und Haftstrafen. Zudem ergab sich, dass sogar Krebsdiagnosen umso unwahrscheinlicher sind, je intelligenter der Mensch ist. Bei vielen dieser Zusammenhänge gibt es sehr wahrscheinlich so genannte vermittelnde Variablen, d.h. solche, die den Zusammenhang zwischen IQ und der jeweils anderen Variable erklären. So ist der Zusammenhang mit Arbeitslosigkeit und Armut sicherlich darauf zurückzuführen, dass ein höherer IQ höhere Bildungsabschlüsse ermöglicht, die dann wiederum das Risiko für Arbeitslosigkeit und Verarmung reduzieren. Ähnliches gilt für den Fall der Krebsdiagnosen: Menschen mit höherem IQ haben in der Regel einen gesünderen Lebensstil (trinken z.B. weniger Alkohol und rauchen nicht), was dann wiederum das Krebsrisiko niedrig hält.

Messen Intelligenztests wirklich Intelligenz?

Hier bewegen wir uns auf die Frage nach der Validität dieser Tests zu. Um die Frage aus der Überschrift zu beantworten, müssen wir jedoch verschiedene Aspekte des Konstrukts „Validität“ auseinander halten. Zunächst kann man davon ausgehen, dass bei Intelligenztests im Allgemeinen die Augenscheinvalidität (auch Inhaltsvalidität genannt) gegeben ist. Diese bezieht sich allerdings nur auf die einzelnen Untertests und meint nicht mehr, als dass die Aufgaben offenbar das erfassen, was sie vorgeben zu erfassen – z.B. dass man bei Rechenaufgaben rechnen muss, dass Wortschatzaufgaben die Größe des Wortschatzes erfassen, etc. Allerdings muss man zugeben, dass diese Inhaltsvalidität bei komplexeren Aufgaben wie Matrizenergänzungen durchaus nicht so einfach zu beurteilen ist, weil die Frage nach den Prozessen, die zur Lösung der Aufgaben bewältigt werden müssen, so groß ist, dass sie ein eigenes Forschungsfeld darstellt.

Wenn man jedoch den gesamten Test heranzieht und sich fragt, ob dieser das Konstrukt „Intelligenz“ misst, ist die Antwort schon weniger eindeutig. Dafür, dass zumindest die meisten Intelligenztests annähernd dasselbe messen, sprechen die ziemlich hohen Korrelationen zwischen den Ergebnissen derselben Person in verschiedenen Intelligenztests. Dies bezeichnet man auch als diagnostische Validität. Und dafür, dass mit diesen Tests offenbar etwas gemessen wird, das Auswirkungen auf extrem viele andere Lebensbereiche (Berufserfolg, Gesundheit, etc.) hat, liegen ebenfalls zahlreiche Belege vor (prädiktive Validität). Mit anderen Worten: Irgendetwas muss ganz offensichtlich dran sein an diesem Konstrukt.

Es gibt aber natürlich auch jede Menge Kritik an der gesamten Intelligenzmessung. An dieser Stelle sei noch einmal deutlich betont, dass es sich, wie in Teil 1 beschrieben, bei Intelligenz lediglich um ein Konstrukt handelt – und nicht um eine vom Himmel gefallene und unumstößlich definierte Begebenheit. So wird von Kritikern z.B. eingeworfen, dass klassische Intelligenztests viele Aspekte gar nicht berücksichtigen, z.B. sozio-emotionale Kompetenzen. Zudem wird häufig angemerkt, dass Intelligenz auch die Aneignung von Fertigkeiten und Wissen im kulturellen Kontext bedeutet – was die Tests allesamt nicht erfassen.

Letztendlich handelt es sich bei der Frage, was Intelligenztests messen, also um eine, die die Wissenschaft nie endgültig wird beantworten können, weil dies unmöglich ist. Man kann als Fazit allerdings zweierlei festhalten: Dass Intelligenztests das messen, was sie vorgeben zu messen, scheint auf Basis der Befunde zur Inhalts-, diagnostischen und prädiktiven Validität sehr wahrscheinlich – ebenso wie dass dieses Konstrukt, wie auch immer man es nennen mag, offenbar große Auswirkungen auf unser Leben hat. Ob diese Tests aber tatsächlich Intelligenz messen, lässt sich nicht beantworten, da es sich hierbei um ein höchst unterschiedlich definiertes Konstrukt handelt.

Bleibt der IQ immer gleich? Die Frage nach der Stabilität.

Auch diese Frage hat wiederum zwei Facetten. Die erste ist die Frage, ob Intelligenztests zuverlässig messen, d.h. reliabel sind. Im Wesentlichen ist hiermit die Frage verknüpft, wie genau Intelligenztests messen. Nun, ein psychometrischer Test misst nicht so genau wie eine Waage, das ist klar. Aber die meisten Intelligenztests haben Reliabilitäten von über 0,90, was ziemlich gut ist. Am geläufigsten ist hierbei die so genannte Retest-Reliabilität, d.h. die Frage nach der Übereinstimmung der Testergebnisse, wenn Personen denselben Test zweimal hintereinander bearbeiten. Hierbei muss das Zeitintervall natürlich groß genug sein, um auszuschließen, dass die Person die richtigen Lösungen bei der Bearbeitung lediglich erinnert. Der zeitliche Abstand darf aber auch nicht zu lang sein, da es sonst möglich ist, dass eine große Abweichung der Testwerte darauf zurückgeht, dass die tatsächliche Intelligenzleistung der Person sich verändert hat (was besonders bei Kindern der Fall ist, die einen schnellen Zuwachs verzeichnen).

Die zweite Frage ist die, ob die Intelligenzleistung selbst stabil ist. Hier bietet die Forschungslage erfreulicherweise einen relativ eindeutigen Befund: Obwohl IQ-Werte auch tagesformabhängig sind (logisch, da man sich nicht immer gleich gut konzentrieren kann), sind die Fluktuationen ziemlich gering, und Intelligenz erweist sich insgesamt als ziemlich stabile Eigenschaft. Stabil meint hierbei allerdings nicht, dass immer gleich viele Punkte im selben Test erreicht werden, sondern dass eine Person im Vergleich zur alters- und geschlechtsspezifischen Normstichprobe gleich gut bleibt. Als Beispiel: Natürlich wird ein zehnjähriges Kind im HAWIK mehr Punkte erzielen als mit sechs Jahren, aber es behält trotzdem denselben IQ, weil es bei den beiden Messungen mit unterschiedlichen Normstichproben verglichen wird. Verschiedene Untersuchungen zeigen sogar eine erstaunliche Stabilität des IQ über sehr lange Zeitspannen: So ergab sich in einer Studie von Deary und Kollegen (2000) eine beachtliche Korrelation von 0,77 zwischen den IQ-Werten einer Stichprobe, die zum ersten Mal 1932 und zum zweiten Mal 1995 an demselben Test teilgenommen hatte.

Interessant ist diesbezüglich übrigens der sehr unterschiedliche Verlauf von fluider und kristalliner Intelligenz über die Lebensspanne. Studien aus diesem Bereich zeigen, dass, während die kristalline Intelligenz (im Wesentliches also erworbenes Wissen) im Laufe des Lebens zunimmt bzw. stagniert, die fluide Intelligenz (logisches Denken etc.) abnimmt. Neuere Untersuchungen zeigen jedoch, dass der Rückgang der fluiden Intelligenz auf etwas anderes zurückzuführen ist – nämlich auf die mit dem Alter geringer werdende Erfahrung mit den Aufgabenformaten typischer Intelligenztests, die stark an die von Schulaufgaben angelehnt sind. Insgesamt kann man also sagen: Intelligenz ist ziemlich stabil, aber eben nicht perfekt stabil. Und das liegt maßgeblich daran, dass wir entgegen der weitläufigen Meinung nicht mit einem festgelegten IQ geboren werden – was Thema des fünften Teils der Intelligenz-Reihe sein wird.

 © Christian Rupp 2014

Warum Psychologie mehr mit Mathematik als mit einer Couch zu tun hat

Die landläufige Ansicht ist die, dass man, wenn man Psychologie studiert, vor allem lernt, andere Menschen zu analysieren und dass man in beruflicher Hinsicht grundsätzlich nur mit psychisch Kranken (“Verrückten”) zu tun hat. Nun, liebe Leserin bzw. lieber Leser – dies könnte nicht weiter an der Realität vorbei gehen. Was jedoch zutrifft, ist, dass auch ein sehr großer Teil derjenigen, die sich nach dem Abitur für ein Psychologiestudium entscheiden, diese Entscheidung auf Basis eines ähnlich falschen Bildes trifft und sich dann im ersten Semester wundert, warum irgendwie niemand ihnen etwas von Traumdeutung von verdrängten Bedürfnissen erzählt.

Wenn man sich die Inhalte des Psychologiestudiums ansieht, stellt man fest: Knapp die Hälfte der Lehrinhalte besteht aus Methodenlehre, Statistik, experimentellen Forschungspraktika und Dingen wie Testtheorie, Fragebogenkonstruktion und wissenschaftlicher Datenanalyse – mit anderen Worten: aus jeder Menge Mathematik und Computerarbeit. Zudem muss man das Studium mit einer eigenen wissenschaftlichen Arbeit (der Bachelor- und Masterarbeit oder im alten Diplomstudiengang der Diplomarbeit) abschließen, für die jeweils eine eigene empirische Untersuchung durchgeführt und ausgewertet werden muss. Wozu nun das ganze? Nun, wie schon im vorausgehenden Artikel beschrieben, ist die Psychologie eine empirische Naturwissenschaft, und ein wesentliches Hauptziel des Studiums besteht darin, die Studierenden zu Naturwissenschaftlern auszubilden – mit allem, was dazu gehört. Konkret bedeutet dies zweierlei: die Kenntnis wissenschaftlicher Methoden und Kenntnisse in der statistischen Datenanalyse.

Erstens gilt es (grob gesagt), sich Expertise darüber anzueignen, wie man welchen Forschungsfragen auf den Grund gehen kann. Hierzu gehört die komplette Gestaltung einer solchen Studie bzw. eines solchen Experiments, aus dem man dann am Ende auch tatsächlich aussagekräftige Schlussfolgerungen ziehen kann. Und das tatsächlich hinzubekommen, ist alles andere als leicht und rechtfertigt durchaus, dass nicht nur in den Methodenfächern selbst (die dann so schöne Namen haben wie “Forschungsmethoden der Psychologie”, “Versuchsplanung” oder “experimentelles Forschungspraktikum”), sondern in allen Fächern Wert darauf gelegt wird, die Prinzipien guter psychologischer Forschung deutlich zu machen. Im Hinblick auf das, was man bei der Planung eines psychologischen Experiments alles falsch machen kann, sind vor allem die interne und externe Validität zu nennen. Nehmen wir als Beispiel ein Experiment, in dem der Einfluss der Arbeitsbelastung auf das Stressempfinden von Probanden untersucht werden soll (eine ganz typische psychologische Fragestellung: Was ist der Einfluss von X auf Y?).

Interne Validität: Welchen Einfluss untersuche ich?

Die interne Validität ist gegeben, wenn Veränderungen in der abhängigen Variablen (Stressempfinden) ausschließlich auf die experimentelle Manipulation (also vom Versuchsleiter gesteuerte Veränderung) der unabhängigen Variablen (Arbeitsbelastung) zurückzuführen sind. Wenn aber in der Situation des Experiments noch andere Einflüsse vorhanden sind (so genannte Störvariablen), z.B. zusätzlicher Druck durch andere Probanden im selben Raum, dann weiß man ganz schnell schon nicht mehr, worauf etwaige Veränderungen der abhängigen Variablen (Stressempfinden) zurückzuführen sind: auf die experimentell kontrollierte Arbeitsbelastung oder auf die Anwesenheit der anderen Probanden? In diesem Fall ist die Lösung einfach: Jeder Proband muss einzeln getestet werden. Danach wären jedoch immer noch Einflüsse von anderen Störvariablen möglich: So könnte es z.B. eine Rolle spielen, ob der Versuchsleiter sich den Probanden gegenüber eher kühl-reserviert oder freundlich-motivierend verhält (ein so genannter Versuchsleiter-Effekt). Die Lösung hierfür wären standardisierte Instruktionen für jeden Probanden. Was ich hier beschreibe, sind, an einem sehr einfachen Beispiel dargestellt, typische Vorüberlegungen, die man vor der Durchführung einer psychologischen Studie unbedingt durchgehen sollte, um nicht am Ende ein Ergebnis ohne Aussagekraft zu haben. Wie ihr euch sicher vorstellen könnt, wird das ganze umso komplizierter, je schwieriger und spezifischer die Forschungsfrage ist. Besonders in der kognitiven Neurowissenschaft, wo es um die Untersuchung von Prozessen im Gehirn geht, kann dies schnell extreme Komplexitätsgrade annehmen. Was man daher unbedingt braucht, ist das Wissen aus der Methodenlehre, kombiniert mit spezifischem Wissen über dasjenige Fachgebiet, in dem man gerne forschen möchte.

Externe Validität: Gilt das Ergebnis für alle Menschen?

Die externe Validität ist derweil gegeben, wenn (die interne Validität vorausgesetzt), das Ergebnis der Studie verallgemeinerbar ist, d.h. repräsentativ. Dies ist vor allem eine Frage der Merkmale der Stichprobe (die Gruppe von Probanden, die man untersucht). Vor allem interessiert dabei deren Größe (bzw. Umfang), die insbesondere aus statistischer Sicht zentral ist, sowie deren Zusammensetzung. So leuchtet einem ziemlich gut ein, dass das Ergebnis einer Studie nur dann Aussagen über alle Menschen ermöglicht, wenn die Stichprobe auch repräsentativ für die Gesamtbevölkerung ist – also z.B. nicht nur weibliche Studierende einer bestimmten Altersklasse und einer bestimmten sozialen Schicht enthält. Tatsächlich konnte allerdings für sehr viele psychologische Merkmale gefunden werden, dass sie überraschend unabhängig von solchen Unterschieden sind, sodass die externe Validität häufig eine untergeordnete Rolle spielt (was allerdings auch mit daran liegt, dass es sehr aufwändig und teuer ist, repräsentative Stichproben zusammenzusetzen – Psychologiestudierende sind aufgrund der guten Verfügbarkeit einfach dankbare Versuchspersonen:-)).

Die operationale Definition: Messe ich, was ich messen will?

Neben interner und externer Validität ist auch die operationale Definition ein Punkt, an der sich gute Forschung von schlechter trennt. Gemeint ist hiermit die Übersetzung der abstrakten Variablen (unabhändige und abhängige) in konkrete, messbare Größen. Um zu meinem Beispiel von oben (Einfluss von Arbeitsbelastung auf Stressempfinden) zurückzukehren, müsste man sich also überlegen, wie man die Arbeitsbelastung und das Stressempfinden misst. Dies ist ein Punkt, der auf den ersten Blick vielleicht trivial erscheint und der einem Laien, wenn er über die Logik der Studie nachdenkt, wahrscheinlich auch nicht auffallen wird, der aber ebenfalls von zentraler Bedeutung für die Aussagekraft der Studie ist. Ebenso wie die Stichprobe repräsentativ für die Bevölkerung sein sollte, sollten die gemessene Größe (abhängige Variable) und die manipulierte Größe (unabhängige Variable) repräsentativ für das Konstrukt (Arbeitsbelastung, Stress) sein, das sich dahinter verbirgt. Die Arbeitsbelastung lässt sich noch recht einfach operational definieren – als Menge an Arbeitsaufträgen pro Stunde zum Beispiel. Aber wie sichert man, dass alle Aufträge auch wirklich gleich aufwändig sind und den Probanden gleich viel Zeit kosten? Dies ist eine Herausforderung für die Versuchsplaner. Das Stressempfinden stellt eine noch größere Herausforderung dar. Man könnte natürlich eine Blutprobe nehmen und die Konzentration des Cortisols (eines unter Stress ausgeschütteten Hormons) bestimmen. Das gibt aber nicht unbedingt den subjektiv empfundenen Stress wieder. Man könnte eben diesen mit einem eigens dafür konstruierten Fragebogen messen, der natürlich auf seine psychometrischen Gütekriterien hin überprüft werden muss (mit wie viel Aufwand und wie viel Rechnerei das verbunden ist, können sie hier nachlesen). Oder aber man lässt Fremdbeobachter den Stress der Probanden anhand deren Verhaltens einschätzen. Hierfür muss wiederum gesichert werden, dass die verschiedenen Beobachter ihre Bewertungen anhand desselben, auf beobachtbaren Verhaltensweisen basierenden Systems vornehmen und nicht irgendwelche subjektiven Einschätzungen vornehmen (das Kriterium der Objektivität). Was ich hoffe, hieran veranschaulicht zu haben, ist, dass psychologische Forschung weder trivial noch einfach ist, denn der Teufel liegt im Detail. Und von diesen kleinen Teufeln gibt es jede Menge, die man nur mit der nötigen wissenschaftlichen Expertise umgehen kann.

Statistik: Zufall oder nicht?

Die Statistik als Teilgebiet der Mathematik verdient sehr viel mehr, mit “Psychologie” in einem Atemzug genannt zu werden, als das Wort “Couch”. So komplex das Thema ist, mit dem Psychologiestudierende sich eine ganze Reihe von Semestern herumschlagen müssen, so kurz und verständlich lässt sich der Zweck erklären. Denken Sie zurück an die typischen Forschungsfragen, die die Psychologie bearbeitet. Meistens geht es darum, den Zusammenhang zwischen zwei Variablen (z.B. Intelligenz & Arbeitserfolg, siehe vorheriger Artikel) zu berechnen, eine Variable durch eine andere vorherzusagen oder im Rahmen eines Experiments systematisch den Einfluss einer unabhängigen auf eine abhängige Variable zu untersuchen. Auch hier hinterfragt der Laie typischerweise nicht, wie das geschieht – wie Forscher z.B. darauf kommen, zu behaupten, “Killer”-Spiele würden die Aggression des Spielers erhöhen. Nun, dies ist einerseits eine Frage der wissenschaftlichen Methode, wie ich oben ausführlich beschrieben habe. Doch nach dem Durchführen der Studie hat man einen Haufen Daten gesammelt – und der muss ausgewertet und analysiert werden. Zum Analysieren werden die Daten derweil nicht auf die Couch gelegt, sondern in den Computer eingegeben, konkret in typischerweise eines der beiden Programme “SPSS” oder “R”. Diese Programme ermöglichen es, für alle möglichen Formen, in denen Daten vorliegen können (und das sind sehr viele), statistische Maße zu berechnen, die den Zusammenhang zweier Variablen oder den Einfluss von einer Variablen auf die andere abbilden. Zum Fachjargon gehören bei Psychologen unter anderem (um einfach mal ein paar Begriffe ungeordnet in den Raum zu werfen) die Korrelation (von allen noch das nachvollziehbarste Maß), die multiple, logistische, hierarchische oder Poisson-Regression, das odds ratio, Kendall’s Tau-b, die Varianzanalyse oder ANOVA, das allgemeine und generalisierte lineare Modell, Faktorenanalysen, Strukturgleichungsmodelle, Survivalanalysen und viele, viele mehr.

Die Berechnung all dieser Maße ist der eine Zweck der Statistik. Der andere ist die Überprüfung der statistischen Signifikanz, die auf der Wahrscheinlichkeitstheorie und der Kenntnis ganz bestimmter Wahrscheinlichkeitsverteilungen beruht. Platt übersetzt ist ein Ergebnis einer Studie dann statistisch signifikant, wenn es nicht durch den Zufall zu erklären ist. Hierzu stellen wir uns einmal die allereinfachste Form eines psychologischen Experiments vor: den Vergleich von zwei Gruppen A und B, die sich nur anhand eines einzigen Merkmals unterscheiden – der experimentellen Manipulation der unabhängigen Variablen (z.B. Therapie ja oder nein), deren Einfluss auf eine abhängige Variable (z.B. Angst vor Spinnen) untersucht werden soll. Nach der Therapie vergleicht man A und B hinsichtlich ihrer Angst vor Spinnen und stellt fest, dass Gruppe A, die die Therapie erhalten hat, weniger Angst hat als Gruppe B, die keine Therapie erhalten hat (einen ausführlichen Artikel über die Art und Weise, wie die Wirksamkeit von Psychotherapie untersucht wird, finden Sie hier). Ein Laie würde jetzt wahrscheinlich sagen, dass die Therapie wirksam ist, vielleicht in Abhängigkeit davon, wie groß der Unterschied zwischen A und B ist. Das Tolle, das uns die Statistik ermöglicht, ist nun, zu überprüfen, ob der gefundene Unterschied zwischen den Gruppen signifikant ist, d.h. nicht durch den Zufall erklärt werden kann, der ja mitunter so einiges erklären kann. So berechnet man die konkrete Wahrscheinlichkeit dafür, dass das gefundene Ergebnis (z.B. der Gruppenunterschied zwischen A & B) durch reinen Zufall zustande gekommen ist, ohne das ein wahrer Unterschied (bzw. Effekt) vorliegt. Beträgt diese Warscheinlichkeit unter 5% (manchmal auch unter 1%), schließt man den Zufall als Erklärung aus. Achtung: Diese Festlegung der 5% oder 1%-Grenze (des so genannten Signifikanzniveaus) ist eine Konvention, keine naturgegebene Regel. Wenn der Stichprobenumfang groß genug ist (ein wichtiger Faktor bei der Überprüfung der Signifikanz), können übrigens auch schon kleine Effekte (z.B. Gruppenunterschiede) statistisch signifikant sein. Ob ein solcher kleiner Unterschied dann jedoch wirklich von Bedeutung ist, ist eine andere (inhaltliche) Frage. Wie ihr seht, erweist die Statistik uns sehr wertvolle Dienste – und auch, wenn ich sie in meinem Studium sehr häufig verflucht habe, bin ich rückblickend doch sehr froh, mit ihr jetzt vertraut zu sein.

Warum Ahnung von Wissenschaft Gold wert ist

Das allgemeine Wissen über die Prinzipien wissenschaftlicher Forschung (die nämlich in jeder Naturwissenschaft nahezu gleich sind) erachte ich als extrem wertvoll, weil es einem etwas unglaublich Wichtiges ermöglicht: zu beurteilen, welchen Quellen von Wissen man trauen kann und welchen nicht. Mit den Merkmalen von “guter”, d.h. aussagekräftiger Forschung im Kopf, ist es einem wissenschaftlich ausgebildeten Menschen möglich, zu beurteilen, ob er einer beliebigen Studie (egal, ob veröffentlicht in einer wissenschaftlichen Fachzeitschrift oder erwähnt in der Brigitte) Glauben schenken möchte. Ein solcher Mensch kann die angewandte Methode der Studie genau daraufhin überprüfen, ob die Voraussetzungen dafür geschaffen sind, dass man hieraus tatsächlich gültige Schlussfolgerungen ziehen kann (z.B. interne Validität gegeben, vernünftige operantionale Definition…). Man fällt nicht so schnell darauf rein, wenn es bei RTL in den Nachrichten heißt, Forscher von der Universität XV hätten “herausgefunden, dass…” (oder noch schlimmer: “bewiesen, dass…”), sondern fragt sich erstmal, wie die Forscher das überhaupt untersucht haben könnten und ob eine solche Aussage auf Basis der verwendeten Forschungsmethode überhaupt zulässig ist. Nicht zuletzt lernt man hierdurch, vermeintliches “Wissen”, das einem im Alltag so begegnet, dahingehend zu hinterfragen, woher es stammt bzw. worauf es basiert – eine Kenntnis von meiner Meinung nach unschätzbarem Wert, ermöglicht es einem doch z.B., der ein oder anderen bunt-schillernden esoterischen Weltanschauung etwas Handfestes entgegen zu setzen und diese als substanzlos zu entlarven. Und eben diese grundsätzliche naturwissenschaftliche Expertise ist das, was Psychologen den Vertretern anderer Fächer (Medizin und Pädagogik eingeschlossen) voraushaben, was sie wiederum aber mit der ebenfalls empirisch orientierten Soziologie verbindet. Darüber, wovon Psychologen darüber hinaus noch so Ahnung haben, wird es im nächsten Artikel gehen.

© Christian Rupp 2013

Warum Psychologen im Studium nicht lernen, ihr Gegenüber zu analysieren

Es ist das Cliché schlechthin, das in der breiten Gesellschaft über Psychologen und Psychologiestudierende kursiert, und damit verbunden ist eines der größten Irrtümer überhaupt, mit dem dieses Fach zu kämpfen hat. In diesem und im nächsten Artikel soll es darum gehen, kurz und bündig darzustellen, was man im Studium der Psychologie wirklich lernt, was beispielhafte Inhalte psychologischer Forschung sind, was fertige Psychologen tatsächlich können und worüber sie Bescheid wissen – und womit sie auf der anderen Seite nichts zu tun haben.

Psychologie, eine empirische Naturwissenschaft

Psychologie hat in der Gesellschaft oft einerseits den Ruf eines Heilberufes wie die Medizin, manchmal auch den eines “Laber-Fachs” ohne Substanz, weil Psychologen ja angeblich immer nur reden. Gleichzeitig haben Psychologen für viele Laien etwas Unheimliches an sich, geht doch das Gerücht um, sie würden ihr Gegenüber wie eine durchsichtige Figur analysieren und in jedem Wort etwas finden, was man doch eigentlich verbergen wollte. Nicht zuletzt hat Psychologie, ebenso wie Medizin, den Ruf eines Elite-Studienfachs, da man, um es zu studieren, aufgrund der wenigen Studienplätze und der hohen Nachfrage meist einen Abiturdurchschnitt von mindestens 1,5 aufweisen muss. Doch was erwartet einen nun wirklich im Studium?

Psychologie an sich ist weder ein Heilberuf wie die Medizin, noch eine Geisteswissenschaft wie Philosophie oder Pädagogik, noch beinhaltet es die Vermittlung von übernatürlichen Fähigkeiten. Psychologie ist eine Naturwissenschaft, die, grob gesagt, menschliches Verhalten und Erleben dahingehend untersucht, dass sie versucht, es vorherzusagen und zu erklären. Sie ist derweil eine empirische, keine theoretische Wissenschaft, d.h., sie sucht nach Erkenntnissen nicht durch die logische Herleitung von Theorien, sondern durch die systematische Untersuchung des menschlichen Verhaltens und Erlebens. Dies tut sie durch das Aufstellen und das darauf folgende Testen von Hypothesen. Basierend auf empirischen Befunden (also den Ergebnissen aus wissenschaftlichen Studien) werden dann wiederum Theorien formuliert, die diese Ergebnisse erklären können – und die dann durch darauf folgende Studien entweder bestätigt oder widerlegt werden. Die Psychologie folgt dabei weitgehend der Wissenschaftstheorie Carl Poppers, die besagt, dass man in der Wissenschaft nie etwas schlussendlich beweisen kann, sondern nur weitere Bestätigung für eine Theorie oder Hypothese sammeln kann. Das einzige, was endgültig möglich ist, ist, eine Theorie oder Hypothese zu widerlegen (d.h., zu falsifizieren). Mehr zum Thema Wissenschaftstheorie finden sie hier.

Da die Psychologie ein unglaublich weites Feld darstellt, kann dies sehr, sehr viele verschiedene Formen annehmen. Besonders gern wird mit Experimenten gearbeitet, bei denen typischerweise zwei Gruppen von Probanden (d.h. Versuchtsteilnehmern) miteinander verglichen werden, die sich nur dadurch unterscheiden, dass bei der einen eine experimentelle Manipulation stattgefunden hat und bei der anderen nicht. Unterscheiden sich die beiden Gruppen danach hinsichtlich eines bestimmten Merkmals (das abhängige Variable genannt wird), kann man sicher sein, dass dieser Unterschied nur auf die experimentelle Manipulation zurückzuführen ist. Zudem werden sehr oft Zusammenhänge zwischen Merkmalen (d.h. Variablen) untersucht, z.B. zwischen Intelligenz und späterem Berufserfolg. Dies erfolgt in der Regel durch die Berechnung von Korrelationen. Wenn die eine Variable zeitlich deutlich vor der anderen gemessen wird, kann man zudem Aussagen darüber treffen, wie gut die eine Variable (z.B. Verlustereignisse in der Kindheit) die andere (z.B. Entwicklung einer Depression im Erwachsenenalter) vorhersagen (oder prädizieren) kann. Um einen Eindruck von typischen Sorten von psychologischen Studien zu vermitteln und die ganzen kursiv gedruckten Begriffe ein wenig mit Leben zu füllen, seien im Folgenden vier Beispiele aus verschiedenen Bereichen der Psychologie genannt.

1. Arbeits- & Organisationspsychologie: Wie kann man Berufserfolg vorhersagen?

Dies ist ein Beispiel für eine Korrelationsstudie, bei der anhand der Intelligenz der Berufserfolg mehrere Jahre später vorhergesagt werden soll. Eine solche Erkenntnis ist von großem Wert für Psychologen, die in der freien Wirtschaft in der Personalauswahl tätig sind und die natürlich ein Interesse daran haben, solche Bewerber für einen Job auszuwählen, von denen erwartet werden kann, dass sie dem Unternehmen in Zukunft Geld in die Kasse spülen. Man geht hierbei so vor, dass man zu einem ersten Zeitpunkt die allgemeine Intelligenz einer Gruppe von Personen misst, die sich z.B. in dieser Gruppe zwischen 90 und 125 bewegt. Hierzu muss natürlich ein psychologischer Test gewählt werden, der präzise misst und gültige Aussagen über die Personen erlaubt. Zu einem späteren Zeitpunkt (z.B. 3 Jahre später) wird dann der Berufserfolg derselben Personen gemessen. Das kann man auf verschiedene Weise tun: Man kann das Einkommen oder die Berufszufriedenheit von den Probanden selbst erheben, oder man kann die jeweiligen Vorgesetzten bitten, die Leistung der Probanden zu bewerten. Die Übersetzung des recht allgemeinen Begriffs “berufliche Leistung” in konkret messbare Variablen nennt man derweil die operationale Definition.

Wenn man dann beides gemessen hat, kann man den Zusammenhang der beiden Variablen (Intelligenz & Berufserfolg) berechnen, was mittels einer Korrelation erfolgt. D.h., man möchte wissen, ob im Mittel über alle Probanden hinweg höhere Intelligenzwerte mit höherem Berufserfolg einhergehen. Achtung: das bedeutet, dass diese Aussage nicht für jeden Probanden gelten muss: Es wird immer Ausnahmen geben, die dem generellen Trend widersprechen – aber dieser generelle Trend ist von Bedeutung. Wie stark dieser Trend ist, kann man am Korrelationskoeffizienten ablesen, der zwischen -1 und +1 variieren kann. -1 stünde für einen perfekten negativen Zusammenhang (je intelligenter, desto weniger erfolgreich im Beruf), +1 für einen perfekten positiven Zusammenhang (je intelligenter, desto erfolgreicher) und 0 für keinen Zusammenhang (Berufserfolg hat nichts mit Intelligenz zu tun).

Im Falle des Zusammenhangs zwischen Intelligenz und Berufserfolg wurde in Metaanalysen (das sind statistische Verfahren, mit denen die Ergebnisse vieler Studien zum gleichen Thema zusammengefasst werden) herausgefunden, dass Intelligenz späteren Berufserfolg mit durchschnittlich 0,5 vorhersagt. Das ist in der Psychologie ein verdammt hoher Wert – und es ist von allen Variablen, die man zur Vorhersage von Berufserfolg herangezogen hat (u.a. Leistung in Assessment Centern, Persönlichkeitsmerkmale, Arbeitsproben, Referenzen früherer Arbeitgeber…) diejenige, die am allerbesten Berufserfolg vorhersagt (man sagt auch, Intelligenz stellt den besten Prädiktor für Berufserfolg dar). Zum Vergleich: Die bei Unternehmen sehr beliebten Assessment-Center zur Bewerberauswahl, die das Unternehmen gerne mehrere zehntausend Euro kosten, haben mit späterem Berufserfolg nur einen Zusammenhang von ungefähr 0,3, sagen diesen also sehr viel weniger verlässlich vorher. Dass Unternehmen in der Bewerberauswahl dennoch die viel teureren Assessment-Center einsetzen, hat einerseits mit der mangelhaften Kenntnis wissenschaftlicher Befunde zu tun, andererseits aber auch mit den beiden Tatsachen, dass die Anbieter von Assessment Centern gut daran verdienen und Intelligenztests trotz ihrer erwiesenen Vorteile oft angstbesetzt und daher verschrien sind.

2. Kognitive Neurowissenschaft: Wie unser Gehirn sich Gedächtnisinhalte einprägt

Hierbei handelt es sich ein Experiment aus einem vergleichsweise jungen Teilgebiet der Psychologie, der kognitiven Neurowissenschaft, die sich mit der Frage befasst, welche Prozesse im Gehirn unseren kognitiven Funktionen (Wahrnehmung, Aufmerksamkeit, Gedächtnis, Denken, Problemlösen, Entscheiden etc.) sowie auch unseren Emotionen zugrunde liegen. Viele psychologische Studien haben sich damit beschäftigt, wie unser Gedächtnis funktioniert. Die Studienart, die ich vorstellen möchte, widmet sich der Frage, wie unser Gehirn es schafft, dass wir uns Gedächtnisinhalte einprägen (d.h. enkodieren) können. Hierbei handelt es sich um eine Leistung des so genannten Arbeitsgedächtnisses, das früher als Kurzzeitgedächtnis bezeichnet wurde und eine begrenzte Menge von Material für maximal wenige Minuten aufrechterhalten kann. Dies ist abzugrenzen von unserem Langzeitgedächtnis, in das Gedächtnisinhalte eingehen, die aufgrund häufiger Wiederholung so weit gefestigt (d.h., konsolidiert) sind, dass sie dauerhaft gespeichert sind. Für diese Konsolidierung ist eine evolutionär alte und innen liegende Gehirnstruktur, der Hippocampus notwendig. Für das Einprägen bzw. das Enkodieren von Gedächtnisinhalten (eine Funktion, die konzeptuell Arbeits- und Langzeitgedächtnis verbindet) sind wiederum andere Gehirnareale verantwortlich.
Um herauszufinden, welche, haben sich Psychologen eines sehr eleganten Designs (so wird generell der Aufbau eines Experiments bzw. einer Studie bezeichnet) bedient, das folgendermaßen aussah: Während Versuchspersonen in einer fMRT-Röhre lagen (mit dem fMRT kann recht präzise die Aktivität einzelner Gehirnareale untersucht werden), wurden sie gebeten, sich in vorgegebener Reihenfolge eine Liste mit Wörtern so gut wie möglich einzuprägen. Außerhalb der Röhre wurden sie dann einige Zeit später gebeten, so viele Wörter wie möglich zu erinnern. Typischerweise berichten Probanden dann zwischen 50 und 75% der Wörter. Was dann kommt, ist wirklich außerordentlich clever und elegant: Man vergleicht die im fMRT gemessene Gehirnaktivität während des Einprägens derjenigen Wörter, die anschließend erinnert wurden, mit der Gehirnaktivität während des Einprägens von Wörtern, die anschließend nicht erinnert werden konnten. Wenn sich dann eine bestimmte Gehirnregion findet, die in den beiden Fällen unterschiedliche Aktivität aufweist, ist sie offenbar an dem oben beschriebenen Einpräge-Prozess beteiligt: Hohe Aktivität führt zu einer höheren Erinnerungswahrscheinlichkeit für Wörter und spiegelt eine intensivere Enkodierung wieder. Genau das wurde für verbale Gedächtnisinhalte (Wörter) für ein kleines Areal im frontalen Cortex gefunden, den linken inferioren frontalen Gyrus – auch bekannt als Broca-Areal. Dieses Areal ist auch essentiell für unsere Fähigkeit, zu sprechen, was darauf hinweist, dass das Einprägen von Wörtern eine Art “innere Stimme” nutzt, mit der die Wörter immer wieder wiederholt werden. Für visuelle Stimuli (z.B. Bilder) wurden währenddessen andere Gehirnareale gefunden, die für die Enkodierung wichtig sind.

3. Klinische Psychologie: Interaktion von Genetik und frühen Traumata bei Depression

In der klinischen Psychologie interessiert man sich neben der Untersuchung der Wirksamkeit von Psychotherapie im Rahmen kontrollierter Studien vor allem für die Frage nach der Ursache von psychischen Störungen. Bezüglich Depression weiß man, dass sowohl Stress in Form einschneidender und traumatischer Lebensereignisse (z.B. früher Verlust enger Bezugspersonen) als auch bestimmte Varianten eines Gens (des so genannten 5HTT-LPR-Polymorphismus) einen Risikofaktor für die Entwicklung einer späteren Depression darstellen. Was man hingehen lanfe Zeit nicht wusste, ist, wie genau diese Faktoren sich zueinander verhalten. Um dies zu untersuchen, führten die Wissenschaftler Caspi und Kollegen eine im Jahr 2003 veröffentlichte Längsschnittstudie durch. Das bedeutet, dass sie Probanden über mehrere Jahre begleiteten und im Zuge dessen einerseits durch Genanalysen die Ausprägung des oben genannten Gens und andererseits die im Laufe der Jahre aufgetretenen einschneidenden Lebensereignisse sowie die Zahl der Probanden, die eine Depression entwickelten, erfassten.

Das Ergebnis war verblüffend und schlug in der klinischen Psychologie wie eine Bombe ein: Sowohl die kritische Variante des Gens erhöte das Risiko für die Entwicklung einer Depression als auch die Anzahl der kritischen Lebensereignisse im Sinne einer “je mehr, desto höher”-Verbindung. Das ist an sich wenig überraschend, aber interessanterweise fanden die Autoren auch, dass der Einfluss der Zahl der Lebensereignisse sehr viel größer war, wenn die kritische Genausprägung (d.h. der unkritische Genotyp) im Gegensatz zur unkritischen vorlag. Und auch das Gegenteil war aus den Daten ersichtlich: Der Einfluss des Genotyps auf das Depressionsrisiko war erst von Bedeutung, wenn zwei oder mehr kritische Lebensereignisse vorlagen, vorher nicht. Man spricht in diesem Fall von einer Gen-Umwelt-Interaktion. Diese Ergebnisse haben eine sehr weitreichende Bedeutung für das Verständnis der Depression und die Art und Weise, wie sich genetische Ausstattung und Umweltfaktoren zueinander verhalten.

4. Sozialpsychologie: Saying-is-Believing – Ich glaube, was ich sage

Hierbei handelt es sich um ein klassische Sorte von Experimenten (ein so genanntes Paradigma) der Sozialpsychologie, die sich mit dem Verhalten von Menschen in sozialen Situationen beschäftigt. Der Saying-is-Believing-Effekt besagt, dass wir, wenn wir wissen, dass unser Gegenüber eine bestimmte Einstellung oder Meinung vertritt, ihm gegenüber auch hauptsächlich Dinge erwähnen, die mit dessen Meinung übereinstimmen – und in der Folge sich unsere eigene Einstellung der unseres Gegenübers angleicht. Dies weiß man aus Experimenten, in denen Versuchspersonen z.B. per Chat mit einer meist fiktiven (d.h. in die Studie eingeweihten) Person kommunizierten, über die sie entweder die Information erhielten, dass diese hinsichtlich eines bestimmten Themas ihrer Meinung oder anderer Meinung waren. Diese Information stellt hier die experimentelle Manipulation dar. So könnte die Information z.B. darin bestehen, dass das unbekannte Gegenüber ein Fan von Lady Gaga ist, während der Proband selbst zu Beginn die Information gegeben hat, dass er diese überhaupt nicht gut findet oder ihr neutral gegenüber steht. In der Kommunikation erwähnt der Proband dem fiktiven Gegenüber dann typischerweise tendenziell positive Dinge über Lady Gaga, was dazu führt, dass sich seine Einstellung dieser gegenüber ins Positive hin verändert – was man sehr gut nach der Kommunikationsphase anhand eines eigens dafür entwickelten Fragebogens erfassen kann.

Das war ein kleiner Einblick in verschiedene Forschungsthemen aus unterschiedlichen Fächern der Psychologie, mit dem ich hoffe, deutlich gemacht zu haben, wie facettenreich dieses Fach ist und wie wenig es mit dem zu tun hat, was die meisten Menschen generell im Kopf haben, wenn sie das Wort “Psychologie” hören. In den folgenden Artikeln wird es darum gehen, warum das Psychologiestudium so voller Statistik und Mathematik ist, mit wie vielen verschiedenen Themen Psychologen sich tatsächlich auskennen und warum Sigmund Freud weder der Begründer der Psychologie ist noch in dieser eine bedeutende Rolle spielt.

Psychologische Tests – Teil 1: Woran erkennt man die echten unter ihnen?

Da auch hierüber in der Gesellschaft sehr weit verbreitete falsche Annahmen zu finden sind, fand ich es sehr wichtig, einmal darzustellen, was eigentlich einen “richtigen” psychologischen Test ausmacht . Deshalb geht es in diesem und in den zwei folgenden Artikeln darum, was psychologische Tests überhaupt sind und was Beispiele für gute und weniger gute Vertreter sind.

Ich möchte fast wetten, dass Sie, liebe_r Leser_in, schon einmal in Ihrem Leben an einem psychologischen Test oder einem, der behauptete, einer zu sein, teilgenommen haben. Tatsächlich trennt sich hier aber die Spreu vom Weizen – denn es gibt seriöse, “echte” psychologische Tests, die gültige Aussagen über eine Person zulassen, und “falsche”, die genau dies nicht erlauben. Ziel aller psychologischer Tests ist es, ein bestimmtes, “in der Person liegendes” und daher von außen nicht direkt beobachtbares Merkmal (Persönlichkeit, Intelligenz, Gedanken…) mehr oder weniger indirekt zu messen. Doch was unterscheidet nun die “echten” von den “falschen” Tests?

Merkmale von echten psychologischen Tests

Quantitative Daten

Ein guter psychologischer Test liefert, wenn auch auf Umwegen, immer Zahlen als Daten. Das bedeutet, selbst wenn die Antworten des Teilnehmers nicht direkt als Zahlen vorliegen (wie es z.B. in einem Fragebogen mit einer 7-stufigen Skala der Fall ist), muss der Test eine Möglichkeit bieten, wie der Testleiter den Antworten oder dem Verhalten eines Probanden Zahlen zuweisen (= das Verhalten quantifizieren) kann. Dieses System muss standardisiert sein (siehe “Objektivität”), und es ist die Grundlage für das Kriterium der Normierung.

Objektivität

Dieses Merkmal bedeutet, dass der Test, unabhängig von der durchführenden Person, immer gleich angewendet und ausgewertet und das Ergebnis immer gleich interpretiert wird. Durchführung, Auswertung und Interpretation sind fest vorgeschrieben. Das Ergebnis unterliegt somit keinen subjektiven Eindrücken, Deutungen oder Manipulationen – der gesamte Testablauf ist standardisiert.

Reliabilität

Dieser Begriff bedeutet Zuverlässigkeit. Im Klartext ist dieses Kriterium erfüllt, wenn der Test bei wiederholter Durchführung dasselbe oder annähernd dasselbe Ergebnis liefert. Wenn jedoch das gemessene Merkmal von Natur aus schwankt (z.B. Einstellungen), kann es passieren, dass dieses Kriterium keinen Sinn macht. Dann kann man höchstens schauen, ob das Merkmal innerhalb sehr kurzer Zeiträume stabil bleibt. Die Reliabiliät wird durch einen Wert zwischen 0 und 1 beschrieben, wobei 1 für maximale Zuverlässigkeit steht (der Testwert stimmt bei beiden Messungen exakt überein). In der Realität sind Werte zwischen 0,7 und 0,9 normal und ausreichend für die Praxis. Von diesem Wert hängt die Größe des so genannten “Konfidenzintervalls” ab. Dieses gibt, da ein psychologischer Test nie so präzise misst wie beispielsweise eine Waage, den Bereich an, in dem der tatsächliche Testwert mit 95%iger Wahrscheinlichkeit liegt. So könnte ein Intelligenztest z.B. einen IQ-Wert von 104 liefern, und das Konfidenzintervall könnte bei einer Reliabilität von 0,9 von 100 bis 108 reichen. Hierzwischen liegt dann sehr wahrscheinlich der “wahre” Wert der Person.

Streng genommen ist mit Reliabilität übrigens eigentlich nicht gemeint, dass zweimal hintereinander derselbe Wert rauskommt, denn auch wenn alle untersuchten Personen bei der zweiten Messung z.B. 5 Punkte dazugewonnen haben, ergibt das eine Reliabilität von 1. Es geht genau genommen nur um die Einhaltung der Rangfolge der Personen: Wird diese bei beiden Messungen eingehalten, ist der Test reliabel. Aber wie gesagt: Für das Alltagsverständnis reicht die obige Definition.

Normierung

Normierung bedeutet, dass der erreichte Testwert einer Person nie losgelöst betrachtet wird, sondern immer mit einer repräsentativen Normierungsstichprobe verglichen wird. Diese besteht aus Personen, die der getesteten Person bezüglich Alter und Geschlecht ähnlich sind. Dazu berechnet man den Abstand zwischen dem Testwert der Person und dem Mittelwert der Normierungsstichprobe. Ein Beispiel: Der neunjährige Theo erreicht in einem Intelligenztest eine Punktzahl von 144, insgesamt sind in dem Test 220 Punkt zu erreichen. Achtung – das ist der Rohwert, nicht der IQ-Wert. Der ergibt sich erst durch weitere Berechnungen, bei der Theos Punktzahl, die durchschnittliche Punktzahl in der Normierungsstichprobe der neunjährigen Jungen und die durchschnittliche Abweichung von dieser Durchschnittspunktzahl (die Standardabweichung) mit einbezogen werden. So erhält man IQ-Werte, die so standardisiert sind, dass der Mittelwert 100 beträgt und die Standardabweichung 15. Weil bei diesen Umrechnungsprozessen dividiert wird, spricht man vom Intelligenzquotienten. Da IQ-Werte daher keine festen, sondern relative Werte darstellen, ist unbedingt zu beachten, mit welcher Normierungsstichprobe jemand verglichen wird: So kann ein Gymnasiast beim Vergleich mit einer Stichprobe aus der breiten Normalbevölkerung einen IQ von 130 aufweisen (wäre demnach also “hochbegabt”), im Vergleich mit anderen Gymnasiasten wäre er hingegen nicht so weit über dem Mittel und hätte einen IQ von 115.

Validität

Dieses vierte Kriterium bedeutet “Gültigkeit”. Ein Test besitzt Validität bzw. ist valide, wenn er tatsächlich misst, was er zu messen vorgibt. Wenn es dabei um ja/nein-Entscheidungen geht (z.B. bei der Frage, ob jemand lügt oder nicht), kann man die Validität damit bestimmen, wie oft der Test eine korrekte Aussage liefert (d.h. jemand lügt, und der Test sagt auch, dass die Person lügt – oder die Person lügt nicht, und der Test sagt auch, dass die Person nicht lügt), und wie oft er daneben liegt (Die Person lügt nicht, aber der Test besagt, dass sie lügt – und andersrum).Wenn der Test jedoch ein Merkmal messen soll, welches nicht nur zwei Kategorien hat (z.B. Intelligenz), dann betrachtet man, wie der Testwert mit anderen Merkmalen zusammenhängt. Hierzu betrachtet man die Korrelation (abgekürzt durch den Buchstaben “r”), das heißt den linearen Zusammenhang von Testwert und einem anderen Wert. Auch die Korrelation variiert zwischen 0 und 1, während 1 für einen perfekten Zusammenhang zwischen zwei Merkmalen steht.

Das unten stehende Foto zeigt als Beispiel die (hypothetische, nicht realitätsgetreue) Korrelation zwischen der Abiturdurchschnittsnote und dem Ergebnis in einem Intelligenztest. Diese beträgt hier 0,5, was in Bezug auf Validität ein sehr hoher Wert ist. Wenn man die Validität eines Tests bestimmt, ist es wichtig, dass der Testwert einen eindeutigen Zusammenhang mit verwandten Merkmalen aufweist (bei Intelligenz wären dies z.B. Schulleistung oder die Leistung in anderen Intelligenztests). Dieser Zusammenhang muss und kann aber gar nicht perfekt ( = 1) sein, weil sämtliche Merkmale (wie Schulleistung) noch durch viele andere Faktoren bestimmt werden. Die Validität eines Tests bestimmt man dabei nie nur durch die Korrelation mit einem anderen Merkmal, sondern immer mit mehreren. Validitäten von 0,3 sind dabei schon als zufriedenstellend, welche über 0,5 bereits als sehr hoch einzustufen.

Hier habe ich einmal aufgemalt, was man sich unter einer Korrelation vorzustellen hat. Die grünen Kreuze stehen alle für jeweils eine Person, von der sowohl das Ergebnis aus einem Intelligenztest (in IQ-Werten, auf der x-Achse) und die Abiturdurchschnittsnote (auf der y-Achse) vorliegen. Diese “Wolke” von Datenpunkten (bzw. –kreuzen) zeigt einen klaren Trend von links unten nach rechts oben, der durch die rote Linie verdeutlicht wird. Das heißt, im Mittel gehen höhere IQ-Werte mit besseren Noten einher, aber natürlich gibt es auch Ausnahmen. Bei einer Korrelation von 1 lägen alle Datenpunkte auf der roten Linie – das würde bedeuten, dass Abinote und Intelligenz in einem perfekten Zusammenhang zueinander stehen und dass das eine linear (d.h. in Form einer Geraden wie der roten Linie) mit dem anderen ansteigt. Bei einem Zusammenhang von r = 0 wäre der gesamte Raum innerhalb des Graphen hingegen gleichmäßig mit Kreuzchen ausgefüllt, es wäre kein Trend in irgendeine Richtung und somit kein Zusammenhang der beiden Merkmale zu erkennen.
Auch die Reliabilität ist übrigens ein Korrelationswert. Hier würde man auf der x-Achse die Testwerte aus der ersten Durchführung abtragen und auf der y-Achse die der zweiten Durchführung. Hierbei würden die grünen Kreuzchen viel näher an der roten Linie liegen als hier im Foto, weil der Zusammenhang viel größer ist (meistens mindestens r = 0,7).

Fiktive Korrelation zwischen Intelligenzquotient und Abiturnote
Fiktive Korrelation zwischen Intelligenzquotient und Abiturnote

Die Validität ist dasjenige Kriterium, das hauptsächlich darüber entscheidet, ob es sich um einen “echten” psychologischen Test handelt oder nicht. Im zweiten und dritten Teil werde ich ein paar Beispiele für valide und nicht valide Tests geben.

© Christian Rupp 2013