Intelligenz – Teil 4: Was messen IQ-Tests und worin besteht ihre Berechtigung?

Nachdem es in Teil 3 darum ging, wie sich der so genannte „IQ“ berechnet und wie er zu interpretieren ist, widmet dieser Artikel sich der Frage: Wie lässt sich Intelligenz messen? Und messen Intelligenztests tatsächlich Intelligenz?

Die verschiedenen Arten von Intelligenztests lassen sich ganz grob in zwei Gruppen einteilen. Anhand ihrer Verbreitung und Etabliertheit habe ich diese zwei Kategorien einmal „untypisch“ und „typisch“ getauft.

„Untypische“ Vertreter

In diese Kategorie fallen zu allererst einmal die so genannten elementaren kognitiven Aufgaben (kurz EKAs). Hierbei handelt es sich um eine Reihe relativ einfacher Aufgaben, z.B. die Identifikation von präsentierten Reizen (Kreis oder Quadrat?), die Unterscheidung von Reizen (Welcher der zwei Töne ist höher?) oder die Erinnerungsleistung in Kurzzeitgedächtnisaufgaben (z.B. maximale Zahl von Zahlen, die jemand, unmittelbar nachdem er sie gehört hat, in derselben Reihenfolge wiedergeben kann). Die Variablen, die hier als Maß für Intelligenz herangezogen werden, sind unter anderem die Reaktionszeit, die so genannte inspection time (Zeit, die jemand benötigt, um z.B. zu sagen, welche von zwei Linien länger ist) oder aber auch mit dem EEG gemessene ereigniskorrelierte Potenziale, wobei die Dauer bis zum Auftreten des Pozentials im EEG (die so genannte Latenz) als Maß für die Verarbeitungsgeschwindigkeit herangezogen wird, die wiederum Intelligenz widerspiegeln soll. Zur Validität der EKAs (also der Frage, in wiefern diese tatsächlich Intelligenz messen), liegen divergierende Befunde vor. Untersucht wurde diese Fragestellung, indem der lineare Zusammenhang (die Korrelation) zwischen der Leistung in EKAs und der Leistung in „typischen“ Intelligenztests berechnet wurde. Diese Korrelation allerdings schwankt in den verschiedenen Studien zwischen 0,35 und 0,70 – mit anderen Worten: Der Zusammenhang ist nicht bombig, und es ist wenig naheliegend, die Leistung in EKAs als alleinigen Indikator für Intelligenz zu betrachten. Ähnliches gilt für die Gehirngröße (gemessen z.B. per MRT bei lebenden oder aber direkt am Objekt  bei toten Menschen), die laut einer Metaanalyse von McDaniel (2005) eine Korrelation von 0,33 mit der Leistung in typischen Intelligenztests aufweist. Dass hier kein so besonders großer Zusammenhang besteht, ist wenig verwunderlich, wenn man bedenkt, dass die Art der synaptischen Vernetzung in unserem Gehirn sehr viel wichtiger für die reibungslose Verarbeitung von Informationen ist als dessen einfaches Volumen.

Zweitens wären da eine Reihe von Tests, die offenkundig „typischen“ Vertretern ähneln, sich aber dadurch von diesen unterscheiden, dass sie den Generalfaktor g ablehnen, d.h. nicht von einem, allen Facetten übergeordneten allgemeinen Intelligenzfaktor ausgehen, sondern von mehreren voneinander unabhängigen Faktoren. In der Tat stellen die von diesen Tests postulierten Faktoren meist elementare kognitive Funktionen (ähnlich den EKAs) dar – und keine Intelligenzkomponenten, wie in den in Teil 2 beschriebenen Modellen aufgeführt. In diese Kategorie fallen z.B. das Cognitive Assessment System (CAS) und die Kaufman-Tests (z.B. das „K-ABC“). Während das CAS u.a. die Faktoren Planung (Strategien zur Problemlösung entwickeln) und Simultanität (getrennte Objekte zu etwas Ganzem integrieren) erfasst, unterscheidet das K-ABC zwischen erworbenen Fertigkeiten (Rechnen und Schreiben), simultaner Verarbeitung (Matrizen-Aufgaben der Sorte „Welches Bild ergänzt das Muster?“) und sequenzieller Verarbeitung (z.B. Zahlen nachsprechen). Wichtig beim K-ABC: Nur diese letzten zwei Faktoren sollen die kognitive Leistungsfähigkeit widerspiegeln; erworbene Fähigkeiten werden isoliert hiervon betrachtet.

„Typische“ Vertreter

Zu den typischen Vertretern gehören alle psychometrischen Tests, d.h. solche, die in der Regel auf einem bestimmten Intelligenzmodell (siehe Teil 2) basieren, eine Reihe verschiedener Aufgabentypen beinhalten, die normiert sind (damit die Leistung der getesten Person mit der von hinsichtlich Alter und Geschlecht ähnlichen Personen verglichen werden kann) und (das ist zentral) deren Gütekriterien (Objektivität, Reliabilität, Validität) überprüft wurden und als gesichert gelten.

Die meisten dieser Tests basieren auf Modellen, die einen g-Faktor annehmen, und ermöglichen daher auch die Berechnung eines allgemeinen Intelligenzquotienten. Ein Beispiel hierfür sind die Wechsler-Intelligenztests, z.B. der WIE (Wechsler-Intelligenztest für Erwachsene) oder der HAWIK-IV (Hamburg-Wechsler-Intelligenztest für Kinder, 4. Auflage). In den Wechsler-Tests gibt es u.a. die typischen Aufgabenbereiche Allgemeines Wissen, Finden von Gemeinsamkeiten, Matrizen ergänzen, Mosaike legen, Zahlen nachsprechen (vorwärts und rückwärts) und Kopfrechnen. Während die Wechsler-Tests sowohl die Berechnung der allgemeinen Intelligenz als auch verschiedener Unterfacetten ermöglichen, erlauben die so genannten Raven-Tests, die ausschließlich aus Matrizenaufgaben bestehen, nur die Berechnung eines allgemeinen IQs. Der Intelligenzstruktur-Tests (IST-2000-R), der auf dem Modell von Thurstone basiert, ermöglicht hingegen nur die Berechnung von IQ-Werten für die Bereiche schlussfolgerndes Denken (verbal, figural und numerisch) und Merkfähigkeit (verbal und figural). Zusätzlich gibt es einen Wissenstest, der aber nicht obligatorisch ist und am ehesten kristalline Intelligenz widerspiegelt.

Wozu das ganze? Der Sinn der Intelligenzmessung.

Nun kann man sich fragen, was es einem bringt, die Intelligenz einen Menschen (bzw. das, was diese ganzen Tests vorgeben, zu messen) zu erfassen. Die selbstwertregulierende Funktion liegt auf der Hand (es ist natürlich schön, von sich sagen zu können, dass man intelligenter als 99% der restlichen Menschheit ist), aber das ist zum Glück nicht alles.

Diagnostik von Intelligenzminderung & Hochbegabung

In der Tat sind Intelligenztests ein extrem wichtiges diagnostisches Instrument, das in vielen Bereichen zum Einsatz kommt. Im Bereich der pädagogischen Psychologie sind da z.B. die Diagnostik von Teilleistungsstörungen wie Lesestörungen, Rechtschreibstörungen und Dyskalkulie (Rechenstörung) zu nennen, zu deren Diagnose nämlich die Leistung im jeweils beeinträchtigten Bereich mindestens zwei Standardabweichungen (also deutlich) unterhalb der allgemeinen Intelligenz liegen müssen (um auszuschließen, dass es sich um eine generelle Intelligenzminderung oder gar eine geistige Behinderung handelt). Aber auch am anderen Ende der Skala ergibt sich ein wichtiges Anwendungsfeld: die Hochbegabtendiagnostik. Die ist deshalb so wichtig, weil es bei solchen Kindern von großer Bedeutung ist, diese hohe Intelligenz zu fördern, um Unterforderungserleben zu verhindern, das sonst leicht zu Problemen führen kann (z.B. weil das Kind den Unterricht stört oder sich zurückzieht). Vielleicht denken Sie hierbei auch gleichzeitig an die Diagnose einer ADHS. Das ist völlig richtig, denn auch zu dieser Diagnose muss eine Hochbegabung (genauso wie eine geistige Behinderung) als Ursache des unangepassten Verhaltens des Kindes ausgeschlossen werden.

Bewerberauswahl und Vorhersage des Schulerfolgs

Die weiteren Anwendungsgebiete von Intelligenztests ergeben sich aus der breitgefächerten prädiktiven Validität von Intelligenztests, d.h. aus der Tatsache, dass sich durch die Intelligenzleistung zu einem bestimmten Zeitpunkt bestimmte andere Variablen ziemlich gut vorhersagen lassen. So zeigte z.B. eine Metaanalyse von Schmidt und Hunter aus dem Jahr 1998, dass die allgemeine Intelligenz zu 0,54 mit dem späteren Arbeitserfolg bzw. der beruflichen Leistung korrelierte – damit sind Intelligenztests diejenige Methode mit der besten Vorhersagekraft für Berufserfolg. Trotz dieser Erkenntnis bevorzugen die meisten Unternehmen bei der Bewerberauswahl jedoch die sehr viel teureren Assessment-Center, wobei die Argumente hierfür denkbar schwach sind: Die Leistung in diesen korreliert nämlich im Mittel nur zu 0,37 mit späterem Berufserfolg. Ähnliche Korrelationen ergeben sich für die Beziehung von Intelligenz und Schulerfolg, gemessen z.B. durch die Schulnote. Diese schwanken nach Deary und Kollegen (2007) zwischen 0,43 im Fach Kunst und 0,77 im Fach Mathematik (und das ist in der Psychologie eine wirklich verdammt hohe Korrelation). Als Anwendungsfeld ergibt sich hierbei z.B. die Verteilung von Kindern auf verschiedene Schulformen, um eine jeweils optimale Förderung zu ermöglichen.

Von Haftstrafen bis Krebs

Die Vorhersagekraft der allgemeinen Intelligenz ist jedoch noch sehr viel größer. Eine große Zahl von Längsschnittstudien (d.h. solchen, die z.B. in der Kindheit den IQ messen und dann über die folgenden 20 Jahre weitere Variablen erfassen) wurde zu diesem Thema durchgeführt und führte zu verblüffenden Ergebnissen. So zeigte sich, dass mit steigendem IQ das Risiko für Arbeitslosigkeit und Armut abnimmt, ebenso wie für Scheidungen und Haftstrafen. Zudem ergab sich, dass sogar Krebsdiagnosen umso unwahrscheinlicher sind, je intelligenter der Mensch ist. Bei vielen dieser Zusammenhänge gibt es sehr wahrscheinlich so genannte vermittelnde Variablen, d.h. solche, die den Zusammenhang zwischen IQ und der jeweils anderen Variable erklären. So ist der Zusammenhang mit Arbeitslosigkeit und Armut sicherlich darauf zurückzuführen, dass ein höherer IQ höhere Bildungsabschlüsse ermöglicht, die dann wiederum das Risiko für Arbeitslosigkeit und Verarmung reduzieren. Ähnliches gilt für den Fall der Krebsdiagnosen: Menschen mit höherem IQ haben in der Regel einen gesünderen Lebensstil (trinken z.B. weniger Alkohol und rauchen nicht), was dann wiederum das Krebsrisiko niedrig hält.

Messen Intelligenztests wirklich Intelligenz?

Hier bewegen wir uns auf die Frage nach der Validität dieser Tests zu. Um die Frage aus der Überschrift zu beantworten, müssen wir jedoch verschiedene Aspekte des Konstrukts „Validität“ auseinander halten. Zunächst kann man davon ausgehen, dass bei Intelligenztests im Allgemeinen die Augenscheinvalidität (auch Inhaltsvalidität genannt) gegeben ist. Diese bezieht sich allerdings nur auf die einzelnen Untertests und meint nicht mehr, als dass die Aufgaben offenbar das erfassen, was sie vorgeben zu erfassen – z.B. dass man bei Rechenaufgaben rechnen muss, dass Wortschatzaufgaben die Größe des Wortschatzes erfassen, etc. Allerdings muss man zugeben, dass diese Inhaltsvalidität bei komplexeren Aufgaben wie Matrizenergänzungen durchaus nicht so einfach zu beurteilen ist, weil die Frage nach den Prozessen, die zur Lösung der Aufgaben bewältigt werden müssen, so groß ist, dass sie ein eigenes Forschungsfeld darstellt.

Wenn man jedoch den gesamten Test heranzieht und sich fragt, ob dieser das Konstrukt „Intelligenz“ misst, ist die Antwort schon weniger eindeutig. Dafür, dass zumindest die meisten Intelligenztests annähernd dasselbe messen, sprechen die ziemlich hohen Korrelationen zwischen den Ergebnissen derselben Person in verschiedenen Intelligenztests. Dies bezeichnet man auch als diagnostische Validität. Und dafür, dass mit diesen Tests offenbar etwas gemessen wird, das Auswirkungen auf extrem viele andere Lebensbereiche (Berufserfolg, Gesundheit, etc.) hat, liegen ebenfalls zahlreiche Belege vor (prädiktive Validität). Mit anderen Worten: Irgendetwas muss ganz offensichtlich dran sein an diesem Konstrukt.

Es gibt aber natürlich auch jede Menge Kritik an der gesamten Intelligenzmessung. An dieser Stelle sei noch einmal deutlich betont, dass es sich, wie in Teil 1 beschrieben, bei Intelligenz lediglich um ein Konstrukt handelt – und nicht um eine vom Himmel gefallene und unumstößlich definierte Begebenheit. So wird von Kritikern z.B. eingeworfen, dass klassische Intelligenztests viele Aspekte gar nicht berücksichtigen, z.B. sozio-emotionale Kompetenzen. Zudem wird häufig angemerkt, dass Intelligenz auch die Aneignung von Fertigkeiten und Wissen im kulturellen Kontext bedeutet – was die Tests allesamt nicht erfassen.

Letztendlich handelt es sich bei der Frage, was Intelligenztests messen, also um eine, die die Wissenschaft nie endgültig wird beantworten können, weil dies unmöglich ist. Man kann als Fazit allerdings zweierlei festhalten: Dass Intelligenztests das messen, was sie vorgeben zu messen, scheint auf Basis der Befunde zur Inhalts-, diagnostischen und prädiktiven Validität sehr wahrscheinlich – ebenso wie dass dieses Konstrukt, wie auch immer man es nennen mag, offenbar große Auswirkungen auf unser Leben hat. Ob diese Tests aber tatsächlich Intelligenz messen, lässt sich nicht beantworten, da es sich hierbei um ein höchst unterschiedlich definiertes Konstrukt handelt.

Bleibt der IQ immer gleich? Die Frage nach der Stabilität.

Auch diese Frage hat wiederum zwei Facetten. Die erste ist die Frage, ob Intelligenztests zuverlässig messen, d.h. reliabel sind. Im Wesentlichen ist hiermit die Frage verknüpft, wie genau Intelligenztests messen. Nun, ein psychometrischer Test misst nicht so genau wie eine Waage, das ist klar. Aber die meisten Intelligenztests haben Reliabilitäten von über 0,90, was ziemlich gut ist. Am geläufigsten ist hierbei die so genannte Retest-Reliabilität, d.h. die Frage nach der Übereinstimmung der Testergebnisse, wenn Personen denselben Test zweimal hintereinander bearbeiten. Hierbei muss das Zeitintervall natürlich groß genug sein, um auszuschließen, dass die Person die richtigen Lösungen bei der Bearbeitung lediglich erinnert. Der zeitliche Abstand darf aber auch nicht zu lang sein, da es sonst möglich ist, dass eine große Abweichung der Testwerte darauf zurückgeht, dass die tatsächliche Intelligenzleistung der Person sich verändert hat (was besonders bei Kindern der Fall ist, die einen schnellen Zuwachs verzeichnen).

Die zweite Frage ist die, ob die Intelligenzleistung selbst stabil ist. Hier bietet die Forschungslage erfreulicherweise einen relativ eindeutigen Befund: Obwohl IQ-Werte auch tagesformabhängig sind (logisch, da man sich nicht immer gleich gut konzentrieren kann), sind die Fluktuationen ziemlich gering, und Intelligenz erweist sich insgesamt als ziemlich stabile Eigenschaft. Stabil meint hierbei allerdings nicht, dass immer gleich viele Punkte im selben Test erreicht werden, sondern dass eine Person im Vergleich zur alters- und geschlechtsspezifischen Normstichprobe gleich gut bleibt. Als Beispiel: Natürlich wird ein zehnjähriges Kind im HAWIK mehr Punkte erzielen als mit sechs Jahren, aber es behält trotzdem denselben IQ, weil es bei den beiden Messungen mit unterschiedlichen Normstichproben verglichen wird. Verschiedene Untersuchungen zeigen sogar eine erstaunliche Stabilität des IQ über sehr lange Zeitspannen: So ergab sich in einer Studie von Deary und Kollegen (2000) eine beachtliche Korrelation von 0,77 zwischen den IQ-Werten einer Stichprobe, die zum ersten Mal 1932 und zum zweiten Mal 1995 an demselben Test teilgenommen hatte.

Interessant ist diesbezüglich übrigens der sehr unterschiedliche Verlauf von fluider und kristalliner Intelligenz über die Lebensspanne. Studien aus diesem Bereich zeigen, dass, während die kristalline Intelligenz (im Wesentliches also erworbenes Wissen) im Laufe des Lebens zunimmt bzw. stagniert, die fluide Intelligenz (logisches Denken etc.) abnimmt. Neuere Untersuchungen zeigen jedoch, dass der Rückgang der fluiden Intelligenz auf etwas anderes zurückzuführen ist – nämlich auf die mit dem Alter geringer werdende Erfahrung mit den Aufgabenformaten typischer Intelligenztests, die stark an die von Schulaufgaben angelehnt sind. Insgesamt kann man also sagen: Intelligenz ist ziemlich stabil, aber eben nicht perfekt stabil. Und das liegt maßgeblich daran, dass wir entgegen der weitläufigen Meinung nicht mit einem festgelegten IQ geboren werden – was Thema des fünften Teils der Intelligenz-Reihe sein wird.

 © Christian Rupp 2014

Intelligenz – Teil 3: Warum man nicht nur einen IQ hat und wir lange Zeit immer schlauer wurden

Vorab: Was ist eigentlich “der IQ”?

Der so genannte Intelligenzquotient, kurz IQ, ist im Grunde schon der Schlüssel zu der Art und Weise, wie er berechnet wird – und doch wird diese Tatsache im alltäglichen Sprachgebrauch viel zu selten berücksichtigt. Ursprünglich erfolgte die Berechnung dieses Maßes für menschliche Intelligenz allerdings auf etwas andere Weise als heute. Geprägt wurde der Begriff des Intelligenzquotienten nämlich durch den Psychologen William Stern, der den von Alfred Binet geprägten Begriff des Intelligenzalters aufgriff und weiterentwickelte. Das Intelligenzalter ergibt sich nach Binet, grob gesagt, durch die Summe der gelösten Aufgaben in einem Intelligenztest. Aufschluss über die kognitive Leistungsfähigkeit gibt dann der Vergleich von Intelligenzalter und tatsächlichem Lebensalter: Wenn ein 8-jähriges Kind z.B. deutlich mehr (d.h. schwierigere) Aufgaben löst, als andere 8-jährige Kinder es im Durchschnitt tun, dann könnte sein Intelligenzalter z.B. 9,5 Jahre betragen – mit anderen Worten: Dieses Kind wäre in seiner kognitiven Entwicklung schon überdurchschnittlich weit fortgeschritten. William Stern setzte schließlich diese beiden Größen (also das Lebensalter und das Intelligenzalter nach Binet) einfach ins Verhältnis (bildete also einen Quotienten), multiplizierte sie mit dem Faktor 100 – und schon war der IQ geboren. Für unser Beispiel-Kind ergäbe sich somit ein IQ von (9,5/8)*100 = 118,75 (bzw. 119, da es aufgrund der nicht perfekten Reliabilität von Intelligenztests unüblich ist, IQ-Werte mit Nachkommastellen anzugeben).

Heutzutage berechnet man den IQ nicht mehr auf diese Weise, wenngleich das Grundprinzip der Berechnung erhalten geblieben ist: Weiterhin werden zwei verschiedene Werte miteinander ins Verhältnis gesetzt, weshalb der Begriff “Quotient” auch heute noch gerechtfertigt ist. Dies ist mit einer ganz wichtigen Tatsache verbunden, die in der Öffentlichkeit und in den Medien leider so oft untergeht: Es gibt nicht den IQ, und es ist keineswegs so, dass ein Mensch genau einen IQ hat. Derartige Aussagen kann man guten Gewissens als Unsinn bezeichnen. In der Tat kann man einer jeden Person unzählige IQ-Werte zuweisen; aber um zu verstehen, warum das so ist, muss man sich vor Augen führen, wie der IQ berechnet wird.

Wie schon gesagt, basiert die IQ-Berechnung auf dem Bilden von Verhältnissen. Was wird nun ins Verhältnis gesetzt? Grob gesagt wird (egal mit welchem Intelligenztest) immer ein Rohwert zu einem bestimmten Mittelwert und einer Standardabweichung gesetzt. Der Rohwert meint meist die Anzahl der in einem Intelligenztest gelösten Aufgaben (was deshalb Sinn macht, weil fast alle diese Tests so aufgebaut sind, dass die Aufgaben im Verlauf immer schwieriger werden). Bei unserem Beispiel-Kind von oben könnten das z.B. 21 von 30 Aufgaben sein. So, dieser Rohwert sagt einem zunächst einmal gar nichts. Um an einen IQ-Wert zu gelangen, braucht man zusätzlich eine Normstichprobe, d.h. eine repräsentative Stichprobe anderer Menschen, mit der man das Kind nun vergleichen kann. Von dieser Normstichprobe braucht man zwei Informationen: den Mittelwert (d.h. die durchschnittliche Zahl der gelösten Aufgaben in dieser Gruppe von Menschen, hier z.B. 18,1) und die Standardabweichung (d.h. die “durchschnittliche” Abweichung von diesem Mittelwert, z.B. 2,7). Nun muss die Zahl der von unserem Beispiel-Kind gelösten Aufgaben ins Verhältnis zu dieser Normstichprobe gesetzt werden . Hierzu berechnet man zunächst die Differenz zwischen dem Rohwert des Kindes und dem Mittelwert der Normstichprobe: 21-18,1 = 2,9. Dies ist die also die “Abweichung” unseres Kindes vom Mittelwert der Normstichprobe – und diese muss man nun ins Verhältnis setzen zur “durchschnittlichen Abweichung” vom Mittelwert der Normstichprobe (also deren Standardabweichung); d.h. man rechnet: 2,9/2,6 = 1,12. Man sagt: Das Kind liegt etwas mehr als eine Standardabweichung über dem Mittelwert der Normstichprobe. Nun fehlt nur noch die Umrechung in IQ-Werte. Hierzu nutzt man die Tatsache, dass IQ-Werte eine Art Maßzahl sind – deren Mittelwert und deren Standardabweichung festgelegt sind. D.h., man kann sie nutzen, um die Ergebnisse unterschiedlichster Tests (die alle andere Skalierungen verwenden), in ein und derselben Metrik anzugeben. Der Mittelwert des IQ ist auf 100 festgelegt, und die Standardabweichung auf einen Wert von 15. Um unserem Kind nun einen IQ-Wert zuweisen zu können, muss man nur noch den Wert 1,12 mit 15 multiplizieren und 100 addieren – und es ergibt sich ein IQ von 116,8 (bzw. 117).

Und schon hat man das, was in der Praxis meist noch in viel gravierender Form auftritt: Die beiden IQ-Werte (119 und 117) sind nicht gleich. Während es in unserem konstruierten Fall natürlich daran liegt, dass ich bei der obigen Berechnung die Werte ins Blaue hinein erfunden habe, liegt es in der Realität an einem anderen Faktor – nämlich an der Frage, welche Normstichprobe ich heranziehe, um die Person, deren IQ ich messen will, mit ihr zu vergleichen. Im Allgemeinen sollte man hierzu immer diejenige Normstichprobe wählen, die der Person bezüglich Alter und Geschlecht am ähnlichsten und zudem möglichst aktuell ist. Es finden sich aber auch noch feiner aufgegliederte Normen, z.B. auch bezüglich des Bildungsstands oder der besuchten Schulform. Ein IQ-Wert bedeutet immer nur, wie gut oder schlecht die Leistungen einer Person im Vergleich mit einer ihr möglichst ähnlichen Gruppe von Menschen sind. Und das ist genau der Grund, aus dem man für ein und denselben Menschen unzählige IQ-Werte berechnen kann – und ein IQ-Wert völlig ohne Aussage ist, solange man nicht mit angibt, zu welcher Normstichprobe man die Person ins Verhältnis gesetzt hat: Wenn der IQ unseres Kindes aus dem Vergleich mit einer Stichprobe Fünfjähriger resultiert, würde man den IQ von 118 nicht als besonders hoch einstufen; stammt er jedoch aus einem Vergleich mit einer Gruppe 16-Jähriger, kann man sich ziemlich sicher sein, dass das Kind wohl hochbegabt ist. Das ganze noch einmal in Kürze: Wenn jemand Ihnen das nächste Mal erzählt, er habe einen IQ von 150 – dann fragen Sie ihn doch bitte, aus dem Vergleich mit welcher Normstichprobe dieses Ergebnis resultiert.

Wie ist Intelligenz in der Menschheit verbreitet?

Wie oben bereits erwähnt, handelt es sich bei IQ-Werten um eine standardisierte Skala, auf der sich durch einfache Umrechnung alle möglichen Werte abbilden lassen, solange man die zwei wichtigen Angaben vorliegen hat: den Mittelwert und die Standardabweichung der betreffenden Stichprobe. Wann immer ich im Rest dieses Artikels von IQ-Werten spreche, bitte ich, dieses zu berücksichtigen.

Wie man aus zahlreichen Untersuchungen an großen repräsentativen Stichproben weiß, folgen IQ-Werte in der menschlichen Bevölkerung ziemlich genau einer so genannten Gauss’schen Normalverteilung (auch Gauss’sche Glockenkurve oder einfach kurz Normalverteilung genannt). Bei diesem Begriff handelt es sich im Grunde um eine Art “Etikett”, da es eine besondere Form von Verteilung bezeichnet, der (statistische) Werte (wie eben IQ-Werte) folgen können. Eine Normalverteilung lässt sich anhand zweiter Werte genau beschreiben, und zwar wiederum anhand des Mittelwertes und der Standardabweichung, die maßgeblich die Form der Kurve beeinflussen. Was ich im vergangenen Abschnitt noch verschwiegen habe, ist der sehr wichtige Umstand, dass die Tatsache, dass IQ-Werte einer solchen Normalverteilung folgen, einen ganz entscheidenden Vorteil mit sich bringt: nämlich den, dass die Berechnungen und Umrechnungen, die ich oben dargestellt habe, dadurch überhaupt erst mathematisch zulässig sind. Würden IQ-Werte keiner Normalverteilung folgen, hätten wir es um einiges schwieriger. So jedoch lässt sich (wie oben schon erwähnt) guten Gewissens sagen: IQ-Werte haben in der menschlichen Bevölkerung einen Mittelwert von 100 und eine Standardabweichung von 15. Um das ganze einmal ein bisschen plakativer zu machen, habe ich einmal eine entsprechende Abbildung gebastelt.

Verteilung des IQ in der Bevölkerung
Verteilung des IQ in der Bevölkerung

Um diese Glockenkurve nun zu verstehen, ist es wichtig, dass man nicht versucht, die y-Achse zu interpretieren (weshalb ich sie auch weggelassen habe). Mathematisch betrachtet handelt es sich bei dieser Kurve um eine Dichte-Funktion, d.h. auf der y-Achse ist die schwer interpretierbare Dichte abgetragen. Man darf und kann diese Kurve daher nicht direkt so lesen, dass sie einem Aufschluss darüber gibt, wie vielen Prozent der Menschen welcher IQ-Wert zugordnet ist (das geht daher nicht, weil die Intelligenz hier mathematisch als stetiges Merkmal konzipiert ist – aber nun genug mit dem statistischen Wirrwarr).

Sinnvoll interpretierbar ist hingegen das Integral, also die Fläche unter der Glockenkurve. Mit deren Hilfe kann man zumindest Aussagen darüber treffen, wie viele IQ-Werte sich in einem bestimmten Bereich bewegen. So liegen z.B. im Bereich einer Standardabweichung unter- und überhalb vom Mittelwert von 100 (also zwischen den IQ-Werten von 85 und 115) rund 68% aller IQ-Werte, und somit auch aller Menschen. Zwischen 70 und 130 liegen derweil z.B. rund 95% aller Werte, d.h. es liegen nur 2,5% unter 70 und 2,5% über 130. Als Konvention hat sich daher eingebürgert, alle IQ-Werte zwischen 85 und 115 als “durchschnittlich” zu bezeichnen, Werte zwischen 70 und 85 als “niedrig” und Werte zwischen 115 und 130 als “hoch”. “Hochintelligent” ist daher streng genommen etwas anderes als “hochbegabt”, was sich als Begriff für IQ-Werte über 130 etabliert hat. Zur Erinnerung: Diese Menschen liegen bzgl. ihrer kognitiven Leistungen mehr als zwei Standardabweichungen über dem Mittelwert ihrer (hoffentlich) alters- und geschlechtsspezifischen Normstichprobe. Ähnliches gilt in umgekehrter Richtung für IQ-Werte unter 70. Hier bewegen wir uns (allerdings noch mit bedeutenden Abstufungen!) im Bereich der geistigen Behinderung (für deren Definition vorrangig der IQ herangezogen wird). Diese praktischen Prozentangaben haben einen weiteren Vorteil: Man kann jedem IQ-Wert einen Prozentrang zuweisen und somit z.B. Aussagen der Sorte “besser als 84% aller Mitglieder der Normstichprobe” (bei einem IQ von 115) treffen. Um zu der Anmerkung von vorhin zurückzukommen: Ein IQ von 150 würde bedeuten, dass 99,96% der Menschen in der Normstrichprobe (und somit gewissermaßen auch in der Bevölkerung, für die die Normstichprobe ja repräsentativ sein soll) einen niedrigeren Wert aufweisen: Und das ist, wie sie auch an der Abbildung sehen können, hochgradig unwahrscheinlich – mal davon abgesehen, dass kein Intelligenztest einen so hohen Wert vernünftig messen kann (Thema des nächsten Artikels).

Exkurs: Männer & Frauen

Ein ganz heikles Thema ist es natürlich, ob nun Männer oder Frauen im Durchschnitt intelligenter sind. Der mir bekannte aktuelle Forschungsstand hierzu ist der, dass es – bezüglich der allgemeinen Intelligenz – einen marginalen Unterschied dahingehend gibt, dass Männer ein paar wenige IQ-Punkte vorne liegen, gleichzeitig aber die Varianz bei Männern höher ist: Sowohl in den sehr hohen als auch in den sehr niedrigen IQ-Bereichen überwiegen Männer. Dazu sei noch gesagt, dass dieser Unterschied durch zwei Aspekte an Bedeutung verliert: Zum einen ist die Varianz innerhalb jeder der beiden Gruppen um ein Vielfaches größer als der Unterschied zwischen den Gruppen, und zum anderen ist es gut möglich, dass jener Unterschied dadurch zustande gekommen ist, dass viele Intelligenztests bestimmte Aufgaben in den Vordergrund stellen, die Männer bevorteilen. Denn was als gut gesichert gilt, ist, dass Männer und Frauen sich deutlich hinsichtlich ihrer kognitiven Stärken und Schwächen unterscheiden: Es gilt als sehr robuster Befund, dass Männer z.B. im Mittel besser im visuell-räumlichen Denken abschneiden als Frauen, die wiederum im Durchschnitt die Nase vorn haben, was die verbale Intelligenz betrifft.

Der Flynn-Effekt: Wird die Menschheit wirklich immer intelligenter?

Eine andere Fragestellung ist die, ob der durchschnittliche IQ der Menschheit tatsächlich zunimmt – ein Phänomen, das in Anlehnung an den neuseeländischen Politologen James R. Flynn als Flynn-Effekt bezeichnet wird. Dieser Fragestellung auf den Grund zu gehen, ist aufgrund der beschriebenen Berechnungsweise des IQ gar nicht so einfach – denn um herauszufinden, ob der IQ im Mittel steigt, darf man Menschen eben nicht mit aktuellen Normstichproben vergleichen, sondern muss ältere heranziehen: Nur so kommt man dem Flynn-Effekt auf die Schliche.

In der Tat haben groß angelegte Studien ergeben, dass der mittlere IQ in der westlichen Bevölkerung zwischen den 1930er und den 1990er Jahren um 0,2 – 0,5 Punkte pro Jahr gestiegen ist. Dieser Anstieg ergibt sich natürlich aus dem Vergleich mit den immer gleichen Normen aus den 1930er Jahren – anders wäre ein Anstieg ja gar nicht messbar. Dabei nahmen die Leistungen in nicht-sprachlichen Tests (die vor allem fluide Intelligenz messen) deutlich stärker zu als die in sprachlich basierten Tests (die vor allem kristalline Intelligenz messen). Für diesen Befund wurden diverse Erklärungshypothesen diskutiert, die im Folgenden kurz angeschnitten werden sollen.

Dauer des Schulbesuchs und Erfahrung mit typischen Intelligenztestaufgaben

In der Tat nahm die durchschnittliche Dauer des Schulbesuchs in dieser Zeit deutlich zu – was deshalb wichtig ist, weil somit auch die Erfahrung und die Geübtheit im systematischen Lösen von schulischen Aufgaben zunahm, die typischen Intelligenztests sehr ähnlich sind. Der Anteil dieser Faktoren am Flynn-Effekt ist jedoch eher als gering zu einzustufen.

Erziehungsstil

Weiterhin wurde in den Raum geworfen, dass der typische elterliche Erziehungsstil in dieser Zeitspanne natürlich auch einem erheblichen Wandel unterlegen war. Konkret wird von den Vetretern dieser Hypothese angeführt, dass von Eltern zunehmend Wert darauf gelegt wurde, ihre Kinder schon früh in ihrer kognitiven Entwicklung zu fördern. Dieser Trend fand aber nicht nur im familiären Rahmen, sondern auch in viel größerem Maße in den Medien (Beispiel “Sesamstraße”) und in der Politik statt. Die Befunde hierzu sind widersprüchlich. Während man weiß, dass große, national initiierte Bildungsprogramme eher keine Wirksamkeit bezüglich der Erhöhung des durchschnittlichen IQs vorweisen können, wirkt sich frühe Förderung auf der individuellen Ebene durchaus positiv auf die kognitive Entwicklung aus.

Weniger Fälle geistiger Behinderung

Zu bedenken ist sicherlich auch, dass aufgrund besserer medizinischer Versorgung die Zahl der mit geistigen Behinderungen geborenen Kinder in der beschriebenen Zeitspanne zurückgegangen ist. Einige Studien hierzu messen diesem Aspekt im Hinblick auf den Flynn-Effekt eine zentrale Bedeutung bei: Durch den überproportionalen Wegfall sehr niedriger IQ-Werte (<70) in der Bevölkerung stieg der durchschnittliche IQ im Mittel an.

Ernährung

Es ist gut belegt, dass bessere Ernährung (z.B. vitaminreiche Kost, weniger Schadstoffe, etc.) die geistige Entwicklung von Kindern positiv beeinflusst. Durch ungesunde Ernährung kann es z.B. zu Schilddrüsenunterfunktionen kommen (gekennzeichnet durch einen Mangel an Triiodthyroxin und Triiodthyronin), die dann wiederum eine Verzögerung der geistigen Entwicklung bedingen können, sodass der mittlere IQ infolgedessen gestiegen sein könnte.

Vermutlich ist es tatsächlich nicht einer dieser Faktoren, die den Flynn-Effekt erklären, sondern ihr Zusammenspiel. Interessanterweise ist es derweil übrigens so, dass der Anstieg des mittleren IQ seit Anfang der 1990er Jahre als “gestoppt” gilt, sodass man zumindest momentan sagen kann, dass der Flynn-Effekt der Vergangenheit angehört. Manche deuten dies als Beleg für die Richtigkeit der Ernährungshypothese (da die Nahrungsversorgung in der westlichen Gesellschaft gewissermaßen nicht noch viel besser werden kann), ich jedoch würde eher sagen, dass diese Tatsache der “Sättigung” in entsprechender Weise auf alle Erklärungsansätze zutrifft.

In diesem Artikel habe ich mehrfach schon das Thema der Intelligenzmessung gestreift. Ob, wie – und vor allem – wie genau man die Intelligenz eines Menschen tatsächlich messen kann, wird daher der Inhalt des nächsten Artikels sein.

© Christian Rupp 2014

Intelligenz – Teil 2: Die Sicht der wissenschaftlichen Psychologie

Nachdem ich im ersten Artikel zum Thema “Intelligenz” versucht habe, zu beschreiben, wie die Definition des Konstrukts “Intelligenz” von Kultur zu Kultur schwankt, soll es in diesem Beitrag nun darum gehen, wie die wissenschaftliche Psychologie die Intelligenz betrachtet und wie sehr auch unter den Experten auf diesem Gebiet die Meinungen hierüber auseinander gehen.

Die Intelligenzforschung nahm ihren Anfang in den ersten Jahrzehnten des 20. Jahrhunderts, initiiert durch Charles Spearman, den ersten Psychologen, der sich der Erforschung dieses Kontrukts widmete. Er war es auch, der das erste Intelligenzmodell formulierte, welches heutzutage unter dem Begriff der “Zweifaktorentheorie der Intelligenz” bekannt ist. Dieses Modell basiert, wie fast alle anderen Modelle, die im Übrigen grundsätzlich auf Spearmans Modell aufbauen, auf dem Prinzip der Faktorenanalyse, d.h. auf einem statistischen Verfahren, mit dessen Hilfe man anhand typischer Muster von häufig gemeinsam gelösten und gemeinsam nicht gelösten Aufgaben Rückschlüsse über die Formen von Intelligenz ziehen kann, die von einer Gruppe ähnlicher Aufgaben erfordert werden und somit unterschiedliche Subtypen von Intelligenz darstellen.

Nun hat die Faktorenanalyse aber den Nachteil, dass die Ergebnisse, die sie liefert (die so genannte Faktorstruktur) dem Wissenschaftler enorm viel Interpretationsspielraum lassen und man aus dem gleichen statistischen Ergebnis unterschiedliche Modelle über die Struktur der Intelligenz, d.h. ihre verschiedenen Unterformen, ableiten kann. Das Ergebnis sind unterschiedliche hierarchische Modelle, die die sich allem voran in einem ganz wesentlichen Punkt unterscheiden, und zwar der Frage, ob es einen allgemeinen, allen anderen intellektuellen Fähigkeiten übergeordneten, Generalfaktor der Intelligenz (auch g-Faktor oder einfach nur g genannt) gibt – oder ob die verschiedenen Formen der Intelligenz doch voneinander unabhängig sind. Dies hat für die Praxis sehr weitreichende Folgen, hängt es doch genau von dieser Frage ab, ob wir uns bei der Messung der Intelligenz auf einen einzelnen Wert beschränken können oder ob wir differenzierter vorgehen müssen. Auf der zweiten Ebene spaltet die allgemeine Intelligenz sich in einige wenige Unterfaktoren auf, die zumindest teilweise voneinander unabhängig sind, aber dennoch beide auch mit g zusammenhängen. Auf der dritten Ebene gliedern sich diese Unterfaktoren dann wiederum in spezifische intellektuelle Fähigkeiten wie z.B. Wortgewandtheit und logisches Schlussfolgern auf. Damit Ihnen die Vorstellung dieser (immer sehr ähnlich aufgebauten) hierarchischen Modelle etwas leichter fällt, habe ich in der unten stehenden Abbildung einmal selbst ein beispielhaftes Modell erstellt, von dem ich behaupten würde, dass es zwar vereinfacht ist, aber in vielerlei Hinsicht einen derzeit weit verbreiteten Konsens darstellt, nämlich die Annahme eines gewissen g-Faktors, eine Unterscheidung zwischen fluider und kristalliner Intelligenz auf der zweiten Ebene sowie einige typische, diesen beiden Faktoren wiederum unterordnete Subformen intellektueller/kognitiver Fähigkeiten. Worauf die einzelnen Komponenten dieses beispielhaften Modells jeweils zurückgehen, erfahren Sie in den nächsten Abschnitten.

Beispiel für ein hierarchisches Modell
Beispiel für ein hierarchisches Modell

 

Spearman: G thront über allem

Das von Spearman entwickelte Modell ist sowohl das allerälteste als auch dasjenige, das den Begriff des g-Faktors bzw. der “Allgemeinen Intelligenz” geprägt hat. Spearman interpretierte die aus der Faktorenanalyse resultierenden hohen Korrelationen (= statistische Zusammenhänge) zwischen den Lösungsmustern unterschiedlichster Aufgaben derart, dass es einen solchen Generalfaktor der Intelligenz geben müsse, da, grob gesagt, Personen, die in einem Aufgabenbereich (z.B. räumliches Denken) gut abschnitten, tendenziell auch in anderen Bereichen (z.B. Wortschatz und logisches Schlussfolgern) gute Ergebnisse erzielten. Dieser Generalfaktor, so Spearman, sei die Grundlage aller Leistungen in Intelligenztests, und er beschreibt ihn als die “Fähigkeit, Zusammenhänge wahrzunehmen und daraus Schlüsse zu ziehen” – kurz: als “mentale Energie”. G untergeordnet sind im Spearman-Modell nur die “spezifischen Fähigkeiten”, die mit s bezeichnet werden und sprachliche, mathematische und räumliche Intelligenz umfassen. D.h. es gibt im Gegensatz zum oben skizzierten Beispielmodell keinerlei mittlere Ebene.

Auf Spearmans Modell basieren mehrere Intelligenztests, die auch heute noch weit verbreitet sind. Man erkennt diese Tests daran, dass sie am Ende die Berechnung eines Intelligenzquotienten ermöglichen, der als Index für das Niveau der Allgemeinen Intelligenz herangezogen wird. Hierzu gehören z.B. alle Tests aus der Wechsler-Reihe (die aktuellsten sind der Wechsler Intelligenztest für Erwachsene, kurz WIE, und der Hamburg Wechsler Intelligenztest für Kinder in seiner 4. Ausgabe, kurz HAWIK-IV) sowie die Raven-Tests, die nur aus Matrizen-Aufgaben (“Welches Bild gehört in das leere Kästchen?”) bestehen und zum Ziel haben, unabhängig von Sprache und Kultur abstraktes, nicht angewandtes Denken zu erfassen.

Abgrenzung von Spearman: Thurstone & Cattell

Im Verlauf des 20. Jahrhunderts wurde dann von anderen Psychologen eine Fülle weiterer, meist auf Faktorenanalysen und ihrer Interpretation basierender Intelligenzmodelle entwickelt, die sich, wenn man einmal ehrlich ist, nicht wirklich exorbitant voneinander unterscheiden. Dies hat sicherlich auch damit zu tun, dass sie fast ausnahmslos in Abgrenzung vom Spearman-Modell enstanden sind und sich somit alle in irgendeiner Form hierauf beziehen. Der zweite Grund ist der, dass man in der Wissenschaft leider auch nicht ständig das Rad neu erfinden kann.

Das Primärfaktorenmodell nach Thurstone: Ebenbürtiges Nebeneinander?

Anders als Spearman betrachtete Louis Leon Thurstone die Intelligenz als eine Sammlung von sieben klar voneinander angrenzbaren, also unabhängigen Intelligenzarten. Diese sieben Primärfaktoren sind: Rechenfähigkeit, Auffassungsgeschwindigkeit, schlussfolgerndes Denken, räumliches Vorstellungsvermögen, assoziatives Gedächtnis, Sprachbeherrschung und Wortflüssigkeit. Widergespiegelt wird dies durch den bekannten Intelligenz-Struktur-Test, kurz IST-2000-R, in dem eben nicht ein IQ-Wert am Ende berechnet wird, sondern mehrere. Kritisch an diesem Modell ist anzumerken, dass Thurstone bei seinen Faktorenanalysen in den Augen einiger Wissenschaftler etwas “gepfuscht” hat, da er anstatt einer orthogonalen eine oblique Faktorenrotation verwendete – mit dem Ergebnis, dass seine sieben Primärfaktoren leider doch nicht völlig unabhängig voneinander sind. Thurstone räumte tatsächlich später ein, dass diese Kritik berechtigt sei, und erkannte einen gewissen g-Faktor als mögliche Ursache dieser Zusammenhänge an.

Die Zweikomponententheorie nach Cattell: Einführung einer mittleren Ebene

Raymond Bernard Cattell hingegen nahm von vornherein einen g-Faktor als oberste Instanz in seinem Intelligenzmodell an, war zugleich aber der erste, der eine mittlere Ebene (wie im obigen Beispielmodell gezeigt) einführte. Auf ihn geht die bis heute weit etablierte und bewährte Unterscheidung zwischen kristalliner (meist abgekürzt c) und fluider Intelligenz (meist abgekürzt f) zurück, in die sich im zufolge die Allgemeine Intelligenz aufspaltet. Unter der fluiden Intelligenz versteht Cattell eine generelle Denk- und Problemlösefähigkeit, die er als weitgehend unabhängig von kulturellen Einflüssen versteht und die eine wichtige Voraussetzung für den Erwerb neuer Informationen darstellt. Nach Cattell ist die fluide Intelligenz ein angeborenes Merkmal, die sich im Laufe des Lebens stabilisiert oder sogar gegen Ende stagniert. Gegenteilig hierzu verhält sich die bis zum Lebensende stetig anwachsende kristalline Intelligenz, die als kumulative Lebenserfahrung zu sehen ist. Dies deutet bereits darauf hin, dass diese sämtliches im Laufe des Lebens erworbenes Wissen, erworbene Fertigkeiten und Kompetenzen umfasst. Diese erachtet Cattell als stark von kulturellen Einflüssen geprägtes und maßgeblich von sprachlichen Fähigkeiten bestimmtes Konstrukt. Fluide und kristalline Intelligenz sind somit, wie es typisch für Elemente der mittleren Ebene ist, insofern nicht gänzlich unabhängig voneinander, als sie durch die “gemeinsame Mutter” g verbunden sind, und gleichzeitig ist ihr Zusammenhang hinreichend gering, um sie als zwei separate Unterfaktoren zu betrachten. Dabei wird übrigens durchaus angenommen, dass c und f auf vielfältige Weise interagieren: Zum Beispiel wird davon ausgegangen, dass eine gut ausgeprägte fluide Intelligenz den Erwerb von kritalliner Intelligenz in Form von Wissen und Fertigkeiten erleichtert. Cattells Modell ähnelt sehr stark dem von John B. Carroll. Da letzteres keinen meiner Meinung nach wesentlichen Unterschied aufweist, werde ich es an dieser Stelle nicht gesondert beschreiben.

Auch Cattells Theorie ist in die Entwicklung von Intelligenztests eingeflossen. So findet sich (wenn auch nicht explizit so bezeichnet) die Unterteilung in f und c auch im IST-2000-R wieder. Die Tests aus der Wechsler-Serie erfassen typischerweise leicht überwiegend kristalline Intelligenz, während die ebenfalls bereits erwähnten Raven-Tests, ebenso wie die so genannten Culture Fair Tests (kurz CFTs), hauptsächlich fluide Intelligenz messen, um ausdrücklich kulturelle Unterschiede außen vor zu lassen und diesem Sinne “fair” zu sein.

Nicht-hierarchische Modelle

Neben den hierarchischen Modellen gibt es auch noch ein paar Vertreter, die von verschiedenen Intelligenzformen ausgehen, die unabhängig und sozusagen “gleichberechtigt” nebeneinander stehen, ohne dass es einen übergeordneten g-Faktor oder untergeordnete Fähigkeiten gäbe. Im Grunde hätte ich an dieser Stelle auch das Primärfaktorenmodell von Thurstone anführen können; da Thurstone aber im Nachhinein einen g-Faktor doch mehr oder weniger eingeräumt hat, findet es sich bei den hierarchischen Modellen.

Mehrdimensionale Modelle: Inhalt, Prozess & Co.

Zu den im Vergleich zu den hierarchischen Modellen fast schon exotisch anmutenden mehrdimensionalen Modellen gehören das Würfelmodell nach Guilford und das Berliner Intelligenzstrukturmodell nach Jäger. Beiden Modellen gemeinsam ist, dass sich eine sehr große Menge unterschiedlicher “Intelligenzen” ergeben, und zwar als Produkt einiger weniger Faktoren, die unterschiedliche Ausprägungen aufweisen können. Dabei beruhen auch diese Modelle auf Faktorenanalysen und sind somit ein anschaulicher Beleg dafür, auf welch unterschiedliche Weise man die im Prinzip gleiche Datenlage interpretieren kann.

Im Würfelmodell ist es so, dass sich 150 verschiedene Intelligenzarten als Produkt drei verschiedener Faktoren mit wiederum verschiedenen Ausprägungen ergeben. Unter diesen drei Faktoren versteht Guilford den zu verarbeitenden Inhalt (z.B. akustische Reize), den nötigen Vorgang (z.B. Auswertung der akustischen Reize) und das Produkt (z.B. Herausstellung der Implikationen). Das klingt sehr abtrakt, komplex und schwer überprüfbar, was es auch tatsächlich ist. Ähnliches gilt für das Berliner Intelligenzstrukturmodell, bei dem es im Gegensatz zum Würfelmodell nur zwei Faktoren gibt. Zum einen führt Jäger den Faktor “Operationen” an, als dessen mögliche Ausprägungen er Merkfähigkeit, Bearbeitungsgeschwindigkeit, Einfallsreichtum und Verarbeitungskapazität anführt. Zum anderen gibt es den Faktor “Inhalte” mit drei Varianten, und zwar bildhaftem, verbalem und numerischem Material. Insgesamt ergeben sich hieraus also 3×4=12 verschiedene Intelligenzformen, abhängig von der Art des zu bearbeitenden Materials und der Art der geforderten mentalen Operation. Jägers Modell enthält daneben übrigens auch noch einen g-Faktor, der in gewisser Weise allen Faktoren und ihren Ausprägungen gleichsam zugrunde liegt.

Die praktische Anwendung dieser Form von Modellen ist schwieriger als bei den oben beschriebenen Modellen, da, wenn man die Modelle ernst nimmt, für alle möglichen Kombinationen von Faktorausprägungen eine geeignete Aufgabe finden muss. Zwar hat Guilford für den Großteil der in seinem Modell postulierten Intelligenzfacetten inzwischen Aufgabentypen vorgeschlagen, dass diese jedoch in einen standardisierten Intelligenztest übertragen wurden, ist mir nicht bekannt. Anders sieht es mit dem (ja doch deutlich sparsameren) Jäger-Modell aus, welches in Form des Berliner Intelligenzstruktur-Tests (kurz BIS) Anwendung findet.

Gardners Theorie der Multiplen Intelligenzen: Ein Plädoyer gegen G

In den 1980er Jahren veröffentlichte Howard Gardner seine Theorie der Multiplen Intelligenzen und wetterte gewaltig gegen das Konzept der Allgemeinen Intelligenz bzw. den g-Faktor. Er argumentierte, dass klassische Intelligenztests nicht imstande wären, die Fülle an kognitiven Fähigkeiten, über die ein Mensch verfügen kann, zu erfassen, und schlug ein Modell mit sieben voneinander unabhängigen und nicht durch einen übergeordneten g-Faktor bestimmten Intelligenzfacetten vor. An diesem, ebenfalls auf Faktorenanalysen basierenden Modell ist, neben der Tatsache, dass die Unabhängigkeit der Intelligenzfacetten nicht belegt ist, zu kritisieren, dass es eine große Überlappung mit dem (lange vorher veröffentlichten) Thurstone-Modell aufweist (allein schon, was die Zahl der Faktoren angeht). So finden sich bei Gardner u.a. auch die logisch-mathematische, die sprachliche und die bildlich-räumliche Intelligenz. Neu sind allerdings vier Faktoren, die eher den Fokus auf künstlerische und sozio-emotionale Fähigkeiten legen, nämlich die musikalisch-rhythmische, die körperlich-kinästhetische (Einsatz des eigenen Körpers), die interpersonale (Verstehen von und Umgang mit anderen Menschen) und die intrapersonale Intelligenz (Verständnis seinerselbst). Insbesondere die letzten beiden Intelligenzarten sind in der Psychologie inzwischen anerkannte Konstrukte, werden jedoch eher nicht direkt als Form von Intelligenz betrachtet, sondern unter dem Begriff “sozio-emotionale Kompetenz” zusammengefasst (im Volksmund und in Klatschzeitschriften erfreuen sich allerdings die Begriffe “emotionale Intelligenz” und “soziale Intelligenz” allerdings weiter Verbreitung) und als etwas erachtet, das in der Regel in der Kindheit und in der Interaktion mit anderen Menschen erworben wird und eher nicht angeboren ist. Zu diesem Konstrukt gehören z.B. u.a. die Fähigkeit, die Perspektive anderer einzunehmen (Theory of Mind), die Fähigkeit, die emotionale Lage anderer nachzuempfinden (Empathie), das Bewusstsein über eigene emotionale Vorgänge, Wege der Emotionsäußerung und das Bewusstsein über die Wirkung der eigenen Emotionen auf andere sowie die Fähigkeit zur Regulation der eigenen Emotionen.

Sternbergs Triarchisches Modell: Radikale Abkehr vom Hierarchie-Gedanken?

Das von Robert Sternberg postulierte Triarchische Modell, auch bekannt unter dem Namen Komponentenmodell, basiert auf der Informationsverarbeitungstheorie, die, grob gesagt, die menschliche Kognition als Informationsverarbeitungsprozess betrachtet, und gibt vor, eine radikale Abkehr von hierarchischen Strukturen und der Annahme voneinander abgrenzbarer Faktoren darzustellen. Es ist daher auch das einzige bekannte Intelligenzmodell, das nicht auf Faktorenanalysen beruht. Sternberg prägte hiermit auch eine neuartige Definition von Intelligenz und nannte als Teile der Definition die Elemente “Lernen aus Erfahrung”, “abstraktes Schlussfolgern”, “die Fähigkeit, sich einer sich ständig weiterentwickelnden und verändernden Umwelt anzupassen” und “die Motivation, überhaupt neues Wissen bzw. Fertigkeiten zu erlangen”. Die ersten beiden Aspekte überlappen stark mit der kristallinen und der fluiden Intelligenz, die beiden letzten hingegen sind in der Tat relativ neu und haben bisher kaum Eingang in die Messung von Intelligenz gefunden.

Die eigentliche Intelligenztheorie von Sternberg ist hingegen sehr komplex und meiner Ansicht alles andere als leicht verständlich. Ich wage auch, die kühne Behauptung aufzustellen, dass sich diese Theorie kaum prägnant zusammenfassen lässt, weil sie sich teilweise in Einzelheiten verliert. Daher möchte ich mich darauf beschränken, einige meiner Meinung nach wichtige Teilaspekte der Theorie herauszustellen. Zunächst wird, abgeleitet von der Informationsverarbeitungstheorie, die wichtige Unterscheidung getroffen zwischen der Art des ablaufenden kognitiven Prozesses, der Genauigkeit, mit dem dieser abläuft, und der Art der mentalen Repräsentation, die diesem Prozess zugrunde liegt (z.B. bildliches oder sprachliches Material). Insofern erinnert es es schon an dieser Stelle stark an die oben beschriebenen mehrdimensionalen Modelle. Dann verliert sich die Theorie (meiner Auffassung nach) in mehr und mehr Unter-Theorien, die einen eher geringen Erklärungswert haben und darüber hinaus mehr Ähnlichkeit mit den bereits beschriebenen Modellen haben, als man eigentlich aufgrund der revolutionären Aura der Theorie erwarten würde. Wirklich eingängig ist mir lediglich die “Komponenten-Subtheorie”, die drei Intelligenzkomponenten beschreibt und im Gegensatz zum Rest relativ anschaulich ist. Und zwar stellt Sternberg hier die analytische Intelligenz (abstrakte Denkprozesse, die einer Problemlösung vorausgehen), die praktische Intelligenz (Lösung von Problemen durch Anpassung an die Umwelt, Formung einer Umwelt oder Auswahl einer passenden Umwelt) und die kreative Intelligenz (Nutzen von Erfahrungen zur Lösung von Problemen) dar. Diese, so Sternberg, seien aber nicht in ein hierarchisches System eingebunden und stellten auch keinerlei Intelligenzfaktoren im klassischen Sinne dar – vielmehr seien sie eine Beschreibung dessen, was die Intelligenz leisten muss. Was genau er damit meint, und in wiefern dieser Gedanke sich wirklich von den beschriebenen hierarchischen oder mehrdimensionalen Modellen unterscheidet, bleibt zumindest mir unklar. Fest steht, dass Sternberg keinen g-Faktor anerkennt – doch dies allein ist, wie ich ausführlich dargestellt habe, nichts Revolutionäres.

Fazit

Was ich hoffe, vermittelt zu haben, ist, dass es derzeit kein allgemeingültiges und eindeutiges Verständnis dessen gibt, was “Intelligenz” ist, in wie vielen verschiedenen Formen sie vorliegt und ob es einen allem übergeordneten g-Faktor gibt. Wenn man sich die empirische Evidenz anschaut, muss man allerdings zugeben, dass die Existenz einer Allgemeinen Intelligenz bzw. eines solchen g-Faktors sehr wahrscheinlich ist, da sich die starken Zusammenhänge zwischen unterschiedlichsten Intelligenztestaufgaben nicht einfach so wegdiskutieren lassen. Weitere Evidenz für dieses Konstrukt der Allgemeinen Intelligenz findet sich übrigens auch aus der Anwendungsforschung, z.B. aus der Arbeits- und Organisationspsychologie, die ergeben hat, dass die Allgemeine Intelligenz mit Abstand der bester Prädiktor von Berufserfolg ist (Näheres dazu hier). Andererseits gibt es auch Belege, die deutlich zeigen, dass sich mit g auch nicht alles erklären lässt und eine Unterteilung auf unterer Ebene durchaus Sinn macht – so gilt die Unterscheidung zwischen kristalliner und fluider Intelligenz z.B. als gut belegt.

Für mich persönlich bedeutet dies, dass die “Wahrheit” (sollte es diese denn geben) am ehesten durch ein Modell abgebildet wird, das dem von Cattell bzw. Carroll ähnelt – vom Konzept also einem solchen, wie Sie es in der obigen Abbildung finden. Bedenken Sie aber, dass all diese Modelle im Wesentlichen unterschiedliche Interpretationen der weitgehend gleichen Sachlage sind und somit automatisch auch von der jeweiligen Ideologie geprägt sind, die ein Forscher vertritt (z.B. bzgl. der Frage, ob es einen g-Faktor geben darf). Und nicht zu vergessen ist auch, dass die Modelle sich, wenngleich sie sich alle natürlich als neuartig und daher wichtig darstellen, im Grunde nicht besonders stark unterscheiden – wenn man einmal genau nachdenkt.

Im nächsten Teil wird es um die Fragen gehen, was es mit dem Intelligenzquotienten auf sich hat, wie Intelligenz in der Bevölkerung verteilt ist und ob es stimmt, dass wir immer intelligenter werden.

© Christian Rupp 2014