IST-2000-R – PRAXIS DR. CHRISTIAN RUPP

Intelligenz – Teil 4: Was messen IQ-Tests und worin besteht ihre Berechtigung?

Nachdem es in Teil 3 darum ging, wie sich der so genannte „IQ“ berechnet und wie er zu interpretieren ist, widmet dieser Artikel sich der Frage: Wie lässt sich Intelligenz messen? Und messen Intelligenztests tatsächlich Intelligenz?

Die verschiedenen Arten von Intelligenztests lassen sich ganz grob in zwei Gruppen einteilen. Anhand ihrer Verbreitung und Etabliertheit habe ich diese zwei Kategorien einmal „untypisch“ und „typisch“ getauft.

„Untypische“ Vertreter

In diese Kategorie fallen zu allererst einmal die so genannten elementaren kognitiven Aufgaben (kurz EKAs). Hierbei handelt es sich um eine Reihe relativ einfacher Aufgaben, z.B. die Identifikation von präsentierten Reizen (Kreis oder Quadrat?), die Unterscheidung von Reizen (Welcher der zwei Töne ist höher?) oder die Erinnerungsleistung in Kurzzeitgedächtnisaufgaben (z.B. maximale Zahl von Zahlen, die jemand, unmittelbar nachdem er sie gehört hat, in derselben Reihenfolge wiedergeben kann). Die Variablen, die hier als Maß für Intelligenz herangezogen werden, sind unter anderem die Reaktionszeit, die so genannte inspection time (Zeit, die jemand benötigt, um z.B. zu sagen, welche von zwei Linien länger ist) oder aber auch mit dem EEG gemessene ereigniskorrelierte Potenziale, wobei die Dauer bis zum Auftreten des Pozentials im EEG (die so genannte Latenz) als Maß für die Verarbeitungsgeschwindigkeit herangezogen wird, die wiederum Intelligenz widerspiegeln soll. Zur Validität der EKAs (also der Frage, in wiefern diese tatsächlich Intelligenz messen), liegen divergierende Befunde vor. Untersucht wurde diese Fragestellung, indem der lineare Zusammenhang (die Korrelation) zwischen der Leistung in EKAs und der Leistung in „typischen“ Intelligenztests berechnet wurde. Diese Korrelation allerdings schwankt in den verschiedenen Studien zwischen 0,35 und 0,70 – mit anderen Worten: Der Zusammenhang ist nicht bombig, und es ist wenig naheliegend, die Leistung in EKAs als alleinigen Indikator für Intelligenz zu betrachten. Ähnliches gilt für die Gehirngröße (gemessen z.B. per MRT bei lebenden oder aber direkt am Objekt bei toten Menschen), die laut einer Metaanalyse von McDaniel (2005) eine Korrelation von 0,33 mit der Leistung in typischen Intelligenztests aufweist. Dass hier kein so besonders großer Zusammenhang besteht, ist wenig verwunderlich, wenn man bedenkt, dass die Art der synaptischen Vernetzung in unserem Gehirn sehr viel wichtiger für die reibungslose Verarbeitung von Informationen ist als dessen einfaches Volumen.

Zweitens wären da eine Reihe von Tests, die offenkundig „typischen“ Vertretern ähneln, sich aber dadurch von diesen unterscheiden, dass sie den Generalfaktor g ablehnen, d.h. nicht von einem, allen Facetten übergeordneten allgemeinen Intelligenzfaktor ausgehen, sondern von mehreren voneinander unabhängigen Faktoren. In der Tat stellen die von diesen Tests postulierten Faktoren meist elementare kognitive Funktionen (ähnlich den EKAs) dar – und keine Intelligenzkomponenten, wie in den in Teil 2 beschriebenen Modellen aufgeführt. In diese Kategorie fallen z.B. das Cognitive Assessment System (CAS) und die Kaufman-Tests (z.B. das „K-ABC“). Während das CAS u.a. die Faktoren Planung (Strategien zur Problemlösung entwickeln) und Simultanität (getrennte Objekte zu etwas Ganzem integrieren) erfasst, unterscheidet das K-ABC zwischen erworbenen Fertigkeiten (Rechnen und Schreiben), simultaner Verarbeitung (Matrizen-Aufgaben der Sorte „Welches Bild ergänzt das Muster?“) und sequenzieller Verarbeitung (z.B. Zahlen nachsprechen). Wichtig beim K-ABC: Nur diese letzten zwei Faktoren sollen die kognitive Leistungsfähigkeit widerspiegeln; erworbene Fähigkeiten werden isoliert hiervon betrachtet.

„Typische“ Vertreter

Zu den typischen Vertretern gehören alle psychometrischen Tests, d.h. solche, die in der Regel auf einem bestimmten Intelligenzmodell (siehe Teil 2) basieren, eine Reihe verschiedener Aufgabentypen beinhalten, die normiert sind (damit die Leistung der getesten Person mit der von hinsichtlich Alter und Geschlecht ähnlichen Personen verglichen werden kann) und (das ist zentral) deren Gütekriterien (Objektivität, Reliabilität, Validität) überprüft wurden und als gesichert gelten.

Die meisten dieser Tests basieren auf Modellen, die einen g-Faktor annehmen, und ermöglichen daher auch die Berechnung eines allgemeinen Intelligenzquotienten. Ein Beispiel hierfür sind die Wechsler-Intelligenztests, z.B. der WIE (Wechsler-Intelligenztest für Erwachsene) oder der HAWIK-IV (Hamburg-Wechsler-Intelligenztest für Kinder, 4. Auflage). In den Wechsler-Tests gibt es u.a. die typischen Aufgabenbereiche Allgemeines Wissen, Finden von Gemeinsamkeiten, Matrizen ergänzen, Mosaike legen, Zahlen nachsprechen (vorwärts und rückwärts) und Kopfrechnen. Während die Wechsler-Tests sowohl die Berechnung der allgemeinen Intelligenz als auch verschiedener Unterfacetten ermöglichen, erlauben die so genannten Raven-Tests, die ausschließlich aus Matrizenaufgaben bestehen, nur die Berechnung eines allgemeinen IQs. Der Intelligenzstruktur-Tests (IST-2000-R), der auf dem Modell von Thurstone basiert, ermöglicht hingegen nur die Berechnung von IQ-Werten für die Bereiche schlussfolgerndes Denken (verbal, figural und numerisch) und Merkfähigkeit (verbal und figural). Zusätzlich gibt es einen Wissenstest, der aber nicht obligatorisch ist und am ehesten kristalline Intelligenz widerspiegelt.

Wozu das ganze? Der Sinn der Intelligenzmessung.

Nun kann man sich fragen, was es einem bringt, die Intelligenz einen Menschen (bzw. das, was diese ganzen Tests vorgeben, zu messen) zu erfassen. Die selbstwertregulierende Funktion liegt auf der Hand (es ist natürlich schön, von sich sagen zu können, dass man intelligenter als 99% der restlichen Menschheit ist), aber das ist zum Glück nicht alles.

Diagnostik von Intelligenzminderung & Hochbegabung

In der Tat sind Intelligenztests ein extrem wichtiges diagnostisches Instrument, das in vielen Bereichen zum Einsatz kommt. Im Bereich der pädagogischen Psychologie sind da z.B. die Diagnostik von Teilleistungsstörungen wie Lesestörungen, Rechtschreibstörungen und Dyskalkulie (Rechenstörung) zu nennen, zu deren Diagnose nämlich die Leistung im jeweils beeinträchtigten Bereich mindestens zwei Standardabweichungen (also deutlich) unterhalb der allgemeinen Intelligenz liegen müssen (um auszuschließen, dass es sich um eine generelle Intelligenzminderung oder gar eine geistige Behinderung handelt). Aber auch am anderen Ende der Skala ergibt sich ein wichtiges Anwendungsfeld: die Hochbegabtendiagnostik. Die ist deshalb so wichtig, weil es bei solchen Kindern von großer Bedeutung ist, diese hohe Intelligenz zu fördern, um Unterforderungserleben zu verhindern, das sonst leicht zu Problemen führen kann (z.B. weil das Kind den Unterricht stört oder sich zurückzieht). Vielleicht denken Sie hierbei auch gleichzeitig an die Diagnose einer ADHS. Das ist völlig richtig, denn auch zu dieser Diagnose muss eine Hochbegabung (genauso wie eine geistige Behinderung) als Ursache des unangepassten Verhaltens des Kindes ausgeschlossen werden.

Bewerberauswahl und Vorhersage des Schulerfolgs

Die weiteren Anwendungsgebiete von Intelligenztests ergeben sich aus der breitgefächerten prädiktiven Validität von Intelligenztests, d.h. aus der Tatsache, dass sich durch die Intelligenzleistung zu einem bestimmten Zeitpunkt bestimmte andere Variablen ziemlich gut vorhersagen lassen. So zeigte z.B. eine Metaanalyse von Schmidt und Hunter aus dem Jahr 1998, dass die allgemeine Intelligenz zu 0,54 mit dem späteren Arbeitserfolg bzw. der beruflichen Leistung korrelierte – damit sind Intelligenztests diejenige Methode mit der besten Vorhersagekraft für Berufserfolg. Trotz dieser Erkenntnis bevorzugen die meisten Unternehmen bei der Bewerberauswahl jedoch die sehr viel teureren Assessment-Center, wobei die Argumente hierfür denkbar schwach sind: Die Leistung in diesen korreliert nämlich im Mittel nur zu 0,37 mit späterem Berufserfolg. Ähnliche Korrelationen ergeben sich für die Beziehung von Intelligenz und Schulerfolg, gemessen z.B. durch die Schulnote. Diese schwanken nach Deary und Kollegen (2007) zwischen 0,43 im Fach Kunst und 0,77 im Fach Mathematik (und das ist in der Psychologie eine wirklich verdammt hohe Korrelation). Als Anwendungsfeld ergibt sich hierbei z.B. die Verteilung von Kindern auf verschiedene Schulformen, um eine jeweils optimale Förderung zu ermöglichen.

Von Haftstrafen bis Krebs

Die Vorhersagekraft der allgemeinen Intelligenz ist jedoch noch sehr viel größer. Eine große Zahl von Längsschnittstudien (d.h. solchen, die z.B. in der Kindheit den IQ messen und dann über die folgenden 20 Jahre weitere Variablen erfassen) wurde zu diesem Thema durchgeführt und führte zu verblüffenden Ergebnissen. So zeigte sich, dass mit steigendem IQ das Risiko für Arbeitslosigkeit und Armut abnimmt, ebenso wie für Scheidungen und Haftstrafen. Zudem ergab sich, dass sogar Krebsdiagnosen umso unwahrscheinlicher sind, je intelligenter der Mensch ist. Bei vielen dieser Zusammenhänge gibt es sehr wahrscheinlich so genannte vermittelnde Variablen, d.h. solche, die den Zusammenhang zwischen IQ und der jeweils anderen Variable erklären. So ist der Zusammenhang mit Arbeitslosigkeit und Armut sicherlich darauf zurückzuführen, dass ein höherer IQ höhere Bildungsabschlüsse ermöglicht, die dann wiederum das Risiko für Arbeitslosigkeit und Verarmung reduzieren. Ähnliches gilt für den Fall der Krebsdiagnosen: Menschen mit höherem IQ haben in der Regel einen gesünderen Lebensstil (trinken z.B. weniger Alkohol und rauchen nicht), was dann wiederum das Krebsrisiko niedrig hält.

Messen Intelligenztests wirklich Intelligenz?

Hier bewegen wir uns auf die Frage nach der Validität dieser Tests zu. Um die Frage aus der Überschrift zu beantworten, müssen wir jedoch verschiedene Aspekte des Konstrukts „Validität“ auseinander halten. Zunächst kann man davon ausgehen, dass bei Intelligenztests im Allgemeinen die Augenscheinvalidität (auch Inhaltsvalidität genannt) gegeben ist. Diese bezieht sich allerdings nur auf die einzelnen Untertests und meint nicht mehr, als dass die Aufgaben offenbar das erfassen, was sie vorgeben zu erfassen – z.B. dass man bei Rechenaufgaben rechnen muss, dass Wortschatzaufgaben die Größe des Wortschatzes erfassen, etc. Allerdings muss man zugeben, dass diese Inhaltsvalidität bei komplexeren Aufgaben wie Matrizenergänzungen durchaus nicht so einfach zu beurteilen ist, weil die Frage nach den Prozessen, die zur Lösung der Aufgaben bewältigt werden müssen, so groß ist, dass sie ein eigenes Forschungsfeld darstellt.

Wenn man jedoch den gesamten Test heranzieht und sich fragt, ob dieser das Konstrukt „Intelligenz“ misst, ist die Antwort schon weniger eindeutig. Dafür, dass zumindest die meisten Intelligenztests annähernd dasselbe messen, sprechen die ziemlich hohen Korrelationen zwischen den Ergebnissen derselben Person in verschiedenen Intelligenztests. Dies bezeichnet man auch als diagnostische Validität. Und dafür, dass mit diesen Tests offenbar etwas gemessen wird, das Auswirkungen auf extrem viele andere Lebensbereiche (Berufserfolg, Gesundheit, etc.) hat, liegen ebenfalls zahlreiche Belege vor (prädiktive Validität). Mit anderen Worten: Irgendetwas muss ganz offensichtlich dran sein an diesem Konstrukt.

Es gibt aber natürlich auch jede Menge Kritik an der gesamten Intelligenzmessung. An dieser Stelle sei noch einmal deutlich betont, dass es sich, wie in Teil 1 beschrieben, bei Intelligenz lediglich um ein Konstrukt handelt – und nicht um eine vom Himmel gefallene und unumstößlich definierte Begebenheit. So wird von Kritikern z.B. eingeworfen, dass klassische Intelligenztests viele Aspekte gar nicht berücksichtigen, z.B. sozio-emotionale Kompetenzen. Zudem wird häufig angemerkt, dass Intelligenz auch die Aneignung von Fertigkeiten und Wissen im kulturellen Kontext bedeutet – was die Tests allesamt nicht erfassen.

Letztendlich handelt es sich bei der Frage, was Intelligenztests messen, also um eine, die die Wissenschaft nie endgültig wird beantworten können, weil dies unmöglich ist. Man kann als Fazit allerdings zweierlei festhalten: Dass Intelligenztests das messen, was sie vorgeben zu messen, scheint auf Basis der Befunde zur Inhalts-, diagnostischen und prädiktiven Validität sehr wahrscheinlich – ebenso wie dass dieses Konstrukt, wie auch immer man es nennen mag, offenbar große Auswirkungen auf unser Leben hat. Ob diese Tests aber tatsächlich Intelligenz messen, lässt sich nicht beantworten, da es sich hierbei um ein höchst unterschiedlich definiertes Konstrukt handelt.

Bleibt der IQ immer gleich? Die Frage nach der Stabilität.

Auch diese Frage hat wiederum zwei Facetten. Die erste ist die Frage, ob Intelligenztests zuverlässig messen, d.h. reliabel sind. Im Wesentlichen ist hiermit die Frage verknüpft, wie genau Intelligenztests messen. Nun, ein psychometrischer Test misst nicht so genau wie eine Waage, das ist klar. Aber die meisten Intelligenztests haben Reliabilitäten von über 0,90, was ziemlich gut ist. Am geläufigsten ist hierbei die so genannte Retest-Reliabilität, d.h. die Frage nach der Übereinstimmung der Testergebnisse, wenn Personen denselben Test zweimal hintereinander bearbeiten. Hierbei muss das Zeitintervall natürlich groß genug sein, um auszuschließen, dass die Person die richtigen Lösungen bei der Bearbeitung lediglich erinnert. Der zeitliche Abstand darf aber auch nicht zu lang sein, da es sonst möglich ist, dass eine große Abweichung der Testwerte darauf zurückgeht, dass die tatsächliche Intelligenzleistung der Person sich verändert hat (was besonders bei Kindern der Fall ist, die einen schnellen Zuwachs verzeichnen).

Die zweite Frage ist die, ob die Intelligenzleistung selbst stabil ist. Hier bietet die Forschungslage erfreulicherweise einen relativ eindeutigen Befund: Obwohl IQ-Werte auch tagesformabhängig sind (logisch, da man sich nicht immer gleich gut konzentrieren kann), sind die Fluktuationen ziemlich gering, und Intelligenz erweist sich insgesamt als ziemlich stabile Eigenschaft. Stabil meint hierbei allerdings nicht, dass immer gleich viele Punkte im selben Test erreicht werden, sondern dass eine Person im Vergleich zur alters- und geschlechtsspezifischen Normstichprobe gleich gut bleibt. Als Beispiel: Natürlich wird ein zehnjähriges Kind im HAWIK mehr Punkte erzielen als mit sechs Jahren, aber es behält trotzdem denselben IQ, weil es bei den beiden Messungen mit unterschiedlichen Normstichproben verglichen wird. Verschiedene Untersuchungen zeigen sogar eine erstaunliche Stabilität des IQ über sehr lange Zeitspannen: So ergab sich in einer Studie von Deary und Kollegen (2000) eine beachtliche Korrelation von 0,77 zwischen den IQ-Werten einer Stichprobe, die zum ersten Mal 1932 und zum zweiten Mal 1995 an demselben Test teilgenommen hatte.

Interessant ist diesbezüglich übrigens der sehr unterschiedliche Verlauf von fluider und kristalliner Intelligenz über die Lebensspanne. Studien aus diesem Bereich zeigen, dass, während die kristalline Intelligenz (im Wesentliches also erworbenes Wissen) im Laufe des Lebens zunimmt bzw. stagniert, die fluide Intelligenz (logisches Denken etc.) abnimmt. Neuere Untersuchungen zeigen jedoch, dass der Rückgang der fluiden Intelligenz auf etwas anderes zurückzuführen ist – nämlich auf die mit dem Alter geringer werdende Erfahrung mit den Aufgabenformaten typischer Intelligenztests, die stark an die von Schulaufgaben angelehnt sind. Insgesamt kann man also sagen: Intelligenz ist ziemlich stabil, aber eben nicht perfekt stabil. Und das liegt maßgeblich daran, dass wir entgegen der weitläufigen Meinung nicht mit einem festgelegten IQ geboren werden – was Thema des fünften Teils der Intelligenz-Reihe sein wird.

Intelligenz – Teil 2: Die Sicht der wissenschaftlichen Psychologie

Nachdem ich im ersten Artikel zum Thema „Intelligenz“ versucht habe, zu beschreiben, wie die Definition des Konstrukts „Intelligenz“ von Kultur zu Kultur schwankt, soll es in diesem Beitrag nun darum gehen, wie die wissenschaftliche Psychologie die Intelligenz betrachtet und wie sehr auch unter den Experten auf diesem Gebiet die Meinungen hierüber auseinander gehen.

Die Intelligenzforschung nahm ihren Anfang in den ersten Jahrzehnten des 20. Jahrhunderts, initiiert durch Charles Spearman, den ersten Psychologen, der sich der Erforschung dieses Kontrukts widmete. Er war es auch, der das erste Intelligenzmodell formulierte, welches heutzutage unter dem Begriff der „Zweifaktorentheorie der Intelligenz“ bekannt ist. Dieses Modell basiert, wie fast alle anderen Modelle, die im Übrigen grundsätzlich auf Spearmans Modell aufbauen, auf dem Prinzip der Faktorenanalyse, d.h. auf einem statistischen Verfahren, mit dessen Hilfe man anhand typischer Muster von häufig gemeinsam gelösten und gemeinsam nicht gelösten Aufgaben Rückschlüsse über die Formen von Intelligenz ziehen kann, die von einer Gruppe ähnlicher Aufgaben erfordert werden und somit unterschiedliche Subtypen von Intelligenz darstellen.

Nun hat die Faktorenanalyse aber den Nachteil, dass die Ergebnisse, die sie liefert (die so genannte Faktorstruktur) dem Wissenschaftler enorm viel Interpretationsspielraum lassen und man aus dem gleichen statistischen Ergebnis unterschiedliche Modelle über die Struktur der Intelligenz, d.h. ihre verschiedenen Unterformen, ableiten kann. Das Ergebnis sind unterschiedliche hierarchische Modelle, die die sich allem voran in einem ganz wesentlichen Punkt unterscheiden, und zwar der Frage, ob es einen allgemeinen, allen anderen intellektuellen Fähigkeiten übergeordneten, Generalfaktor der Intelligenz (auch g-Faktor oder einfach nur g genannt) gibt – oder ob die verschiedenen Formen der Intelligenz doch voneinander unabhängig sind. Dies hat für die Praxis sehr weitreichende Folgen, hängt es doch genau von dieser Frage ab, ob wir uns bei der Messung der Intelligenz auf einen einzelnen Wert beschränken können oder ob wir differenzierter vorgehen müssen. Auf der zweiten Ebene spaltet die allgemeine Intelligenz sich in einige wenige Unterfaktoren auf, die zumindest teilweise voneinander unabhängig sind, aber dennoch beide auch mit g zusammenhängen. Auf der dritten Ebene gliedern sich diese Unterfaktoren dann wiederum in spezifische intellektuelle Fähigkeiten wie z.B. Wortgewandtheit und logisches Schlussfolgern auf. Damit Ihnen die Vorstellung dieser (immer sehr ähnlich aufgebauten) hierarchischen Modelle etwas leichter fällt, habe ich in der unten stehenden Abbildung einmal selbst ein beispielhaftes Modell erstellt, von dem ich behaupten würde, dass es zwar vereinfacht ist, aber in vielerlei Hinsicht einen derzeit weit verbreiteten Konsens darstellt, nämlich die Annahme eines gewissen g-Faktors, eine Unterscheidung zwischen fluider und kristalliner Intelligenz auf der zweiten Ebene sowie einige typische, diesen beiden Faktoren wiederum unterordnete Subformen intellektueller/kognitiver Fähigkeiten. Worauf die einzelnen Komponenten dieses beispielhaften Modells jeweils zurückgehen, erfahren Sie in den nächsten Abschnitten.

Spearman: G thront über allem

Das von Spearman entwickelte Modell ist sowohl das allerälteste als auch dasjenige, das den Begriff des g-Faktors bzw. der „Allgemeinen Intelligenz“ geprägt hat. Spearman interpretierte die aus der Faktorenanalyse resultierenden hohen Korrelationen (= statistische Zusammenhänge) zwischen den Lösungsmustern unterschiedlichster Aufgaben derart, dass es einen solchen Generalfaktor der Intelligenz geben müsse, da, grob gesagt, Personen, die in einem Aufgabenbereich (z.B. räumliches Denken) gut abschnitten, tendenziell auch in anderen Bereichen (z.B. Wortschatz und logisches Schlussfolgern) gute Ergebnisse erzielten. Dieser Generalfaktor, so Spearman, sei die Grundlage aller Leistungen in Intelligenztests, und er beschreibt ihn als die „Fähigkeit, Zusammenhänge wahrzunehmen und daraus Schlüsse zu ziehen“ – kurz: als „mentale Energie“. G untergeordnet sind im Spearman-Modell nur die „spezifischen Fähigkeiten“, die mit s bezeichnet werden und sprachliche, mathematische und räumliche Intelligenz umfassen. D.h. es gibt im Gegensatz zum oben skizzierten Beispielmodell keinerlei mittlere Ebene.

Auf Spearmans Modell basieren mehrere Intelligenztests, die auch heute noch weit verbreitet sind. Man erkennt diese Tests daran, dass sie am Ende die Berechnung eines Intelligenzquotienten ermöglichen, der als Index für das Niveau der Allgemeinen Intelligenz herangezogen wird. Hierzu gehören z.B. alle Tests aus der Wechsler-Reihe (die aktuellsten sind der Wechsler Intelligenztest für Erwachsene, kurz WIE, und der Hamburg Wechsler Intelligenztest für Kinder in seiner 4. Ausgabe, kurz HAWIK-IV) sowie die Raven-Tests, die nur aus Matrizen-Aufgaben („Welches Bild gehört in das leere Kästchen?“) bestehen und zum Ziel haben, unabhängig von Sprache und Kultur abstraktes, nicht angewandtes Denken zu erfassen.

Abgrenzung von Spearman: Thurstone & Cattell

Im Verlauf des 20. Jahrhunderts wurde dann von anderen Psychologen eine Fülle weiterer, meist auf Faktorenanalysen und ihrer Interpretation basierender Intelligenzmodelle entwickelt, die sich, wenn man einmal ehrlich ist, nicht wirklich exorbitant voneinander unterscheiden. Dies hat sicherlich auch damit zu tun, dass sie fast ausnahmslos in Abgrenzung vom Spearman-Modell enstanden sind und sich somit alle in irgendeiner Form hierauf beziehen. Der zweite Grund ist der, dass man in der Wissenschaft leider auch nicht ständig das Rad neu erfinden kann.

Das Primärfaktorenmodell nach Thurstone: Ebenbürtiges Nebeneinander?

Anders als Spearman betrachtete Louis Leon Thurstone die Intelligenz als eine Sammlung von sieben klar voneinander angrenzbaren, also unabhängigen Intelligenzarten. Diese sieben Primärfaktoren sind: Rechenfähigkeit, Auffassungsgeschwindigkeit, schlussfolgerndes Denken, räumliches Vorstellungsvermögen, assoziatives Gedächtnis, Sprachbeherrschung und Wortflüssigkeit. Widergespiegelt wird dies durch den bekannten Intelligenz-Struktur-Test, kurz IST-2000-R, in dem eben nicht ein IQ-Wert am Ende berechnet wird, sondern mehrere. Kritisch an diesem Modell ist anzumerken, dass Thurstone bei seinen Faktorenanalysen in den Augen einiger Wissenschaftler etwas „gepfuscht“ hat, da er anstatt einer orthogonalen eine oblique Faktorenrotation verwendete – mit dem Ergebnis, dass seine sieben Primärfaktoren leider doch nicht völlig unabhängig voneinander sind. Thurstone räumte tatsächlich später ein, dass diese Kritik berechtigt sei, und erkannte einen gewissen g-Faktor als mögliche Ursache dieser Zusammenhänge an.

Die Zweikomponententheorie nach Cattell: Einführung einer mittleren Ebene

Raymond Bernard Cattell hingegen nahm von vornherein einen g-Faktor als oberste Instanz in seinem Intelligenzmodell an, war zugleich aber der erste, der eine mittlere Ebene (wie im obigen Beispielmodell gezeigt) einführte. Auf ihn geht die bis heute weit etablierte und bewährte Unterscheidung zwischen kristalliner (meist abgekürzt c) und fluider Intelligenz (meist abgekürzt f) zurück, in die sich im zufolge die Allgemeine Intelligenz aufspaltet. Unter der fluiden Intelligenz versteht Cattell eine generelle Denk- und Problemlösefähigkeit, die er als weitgehend unabhängig von kulturellen Einflüssen versteht und die eine wichtige Voraussetzung für den Erwerb neuer Informationen darstellt. Nach Cattell ist die fluide Intelligenz ein angeborenes Merkmal, die sich im Laufe des Lebens stabilisiert oder sogar gegen Ende stagniert. Gegenteilig hierzu verhält sich die bis zum Lebensende stetig anwachsende kristalline Intelligenz, die als kumulative Lebenserfahrung zu sehen ist. Dies deutet bereits darauf hin, dass diese sämtliches im Laufe des Lebens erworbenes Wissen, erworbene Fertigkeiten und Kompetenzen umfasst. Diese erachtet Cattell als stark von kulturellen Einflüssen geprägtes und maßgeblich von sprachlichen Fähigkeiten bestimmtes Konstrukt. Fluide und kristalline Intelligenz sind somit, wie es typisch für Elemente der mittleren Ebene ist, insofern nicht gänzlich unabhängig voneinander, als sie durch die „gemeinsame Mutter“ g verbunden sind, und gleichzeitig ist ihr Zusammenhang hinreichend gering, um sie als zwei separate Unterfaktoren zu betrachten. Dabei wird übrigens durchaus angenommen, dass c und f auf vielfältige Weise interagieren: Zum Beispiel wird davon ausgegangen, dass eine gut ausgeprägte fluide Intelligenz den Erwerb von kritalliner Intelligenz in Form von Wissen und Fertigkeiten erleichtert. Cattells Modell ähnelt sehr stark dem von John B. Carroll. Da letzteres keinen meiner Meinung nach wesentlichen Unterschied aufweist, werde ich es an dieser Stelle nicht gesondert beschreiben.

Auch Cattells Theorie ist in die Entwicklung von Intelligenztests eingeflossen. So findet sich (wenn auch nicht explizit so bezeichnet) die Unterteilung in f und c auch im IST-2000-R wieder. Die Tests aus der Wechsler-Serie erfassen typischerweise leicht überwiegend kristalline Intelligenz, während die ebenfalls bereits erwähnten Raven-Tests, ebenso wie die so genannten Culture Fair Tests (kurz CFTs), hauptsächlich fluide Intelligenz messen, um ausdrücklich kulturelle Unterschiede außen vor zu lassen und diesem Sinne „fair“ zu sein.

Nicht-hierarchische Modelle

Neben den hierarchischen Modellen gibt es auch noch ein paar Vertreter, die von verschiedenen Intelligenzformen ausgehen, die unabhängig und sozusagen „gleichberechtigt“ nebeneinander stehen, ohne dass es einen übergeordneten g-Faktor oder untergeordnete Fähigkeiten gäbe. Im Grunde hätte ich an dieser Stelle auch das Primärfaktorenmodell von Thurstone anführen können; da Thurstone aber im Nachhinein einen g-Faktor doch mehr oder weniger eingeräumt hat, findet es sich bei den hierarchischen Modellen.

Mehrdimensionale Modelle: Inhalt, Prozess & Co.

Zu den im Vergleich zu den hierarchischen Modellen fast schon exotisch anmutenden mehrdimensionalen Modellen gehören das Würfelmodell nach Guilford und das Berliner Intelligenzstrukturmodell nach Jäger. Beiden Modellen gemeinsam ist, dass sich eine sehr große Menge unterschiedlicher „Intelligenzen“ ergeben, und zwar als Produkt einiger weniger Faktoren, die unterschiedliche Ausprägungen aufweisen können. Dabei beruhen auch diese Modelle auf Faktorenanalysen und sind somit ein anschaulicher Beleg dafür, auf welch unterschiedliche Weise man die im Prinzip gleiche Datenlage interpretieren kann.

Im Würfelmodell ist es so, dass sich 150 verschiedene Intelligenzarten als Produkt drei verschiedener Faktoren mit wiederum verschiedenen Ausprägungen ergeben. Unter diesen drei Faktoren versteht Guilford den zu verarbeitenden Inhalt (z.B. akustische Reize), den nötigen Vorgang (z.B. Auswertung der akustischen Reize) und das Produkt (z.B. Herausstellung der Implikationen). Das klingt sehr abtrakt, komplex und schwer überprüfbar, was es auch tatsächlich ist. Ähnliches gilt für das Berliner Intelligenzstrukturmodell, bei dem es im Gegensatz zum Würfelmodell nur zwei Faktoren gibt. Zum einen führt Jäger den Faktor „Operationen“ an, als dessen mögliche Ausprägungen er Merkfähigkeit, Bearbeitungsgeschwindigkeit, Einfallsreichtum und Verarbeitungskapazität anführt. Zum anderen gibt es den Faktor „Inhalte“ mit drei Varianten, und zwar bildhaftem, verbalem und numerischem Material. Insgesamt ergeben sich hieraus also 3×4=12 verschiedene Intelligenzformen, abhängig von der Art des zu bearbeitenden Materials und der Art der geforderten mentalen Operation. Jägers Modell enthält daneben übrigens auch noch einen g-Faktor, der in gewisser Weise allen Faktoren und ihren Ausprägungen gleichsam zugrunde liegt.

Die praktische Anwendung dieser Form von Modellen ist schwieriger als bei den oben beschriebenen Modellen, da, wenn man die Modelle ernst nimmt, für alle möglichen Kombinationen von Faktorausprägungen eine geeignete Aufgabe finden muss. Zwar hat Guilford für den Großteil der in seinem Modell postulierten Intelligenzfacetten inzwischen Aufgabentypen vorgeschlagen, dass diese jedoch in einen standardisierten Intelligenztest übertragen wurden, ist mir nicht bekannt. Anders sieht es mit dem (ja doch deutlich sparsameren) Jäger-Modell aus, welches in Form des Berliner Intelligenzstruktur-Tests (kurz BIS) Anwendung findet.

Gardners Theorie der Multiplen Intelligenzen: Ein Plädoyer gegen G

In den 1980er Jahren veröffentlichte Howard Gardner seine Theorie der Multiplen Intelligenzen und wetterte gewaltig gegen das Konzept der Allgemeinen Intelligenz bzw. den g-Faktor. Er argumentierte, dass klassische Intelligenztests nicht imstande wären, die Fülle an kognitiven Fähigkeiten, über die ein Mensch verfügen kann, zu erfassen, und schlug ein Modell mit sieben voneinander unabhängigen und nicht durch einen übergeordneten g-Faktor bestimmten Intelligenzfacetten vor. An diesem, ebenfalls auf Faktorenanalysen basierenden Modell ist, neben der Tatsache, dass die Unabhängigkeit der Intelligenzfacetten nicht belegt ist, zu kritisieren, dass es eine große Überlappung mit dem (lange vorher veröffentlichten) Thurstone-Modell aufweist (allein schon, was die Zahl der Faktoren angeht). So finden sich bei Gardner u.a. auch die logisch-mathematische, die sprachliche und die bildlich-räumliche Intelligenz. Neu sind allerdings vier Faktoren, die eher den Fokus auf künstlerische und sozio-emotionale Fähigkeiten legen, nämlich die musikalisch-rhythmische, die körperlich-kinästhetische (Einsatz des eigenen Körpers), die interpersonale (Verstehen von und Umgang mit anderen Menschen) und die intrapersonale Intelligenz (Verständnis seinerselbst). Insbesondere die letzten beiden Intelligenzarten sind in der Psychologie inzwischen anerkannte Konstrukte, werden jedoch eher nicht direkt als Form von Intelligenz betrachtet, sondern unter dem Begriff „sozio-emotionale Kompetenz“ zusammengefasst (im Volksmund und in Klatschzeitschriften erfreuen sich allerdings die Begriffe „emotionale Intelligenz“ und „soziale Intelligenz“ allerdings weiter Verbreitung) und als etwas erachtet, das in der Regel in der Kindheit und in der Interaktion mit anderen Menschen erworben wird und eher nicht angeboren ist. Zu diesem Konstrukt gehören z.B. u.a. die Fähigkeit, die Perspektive anderer einzunehmen (Theory of Mind), die Fähigkeit, die emotionale Lage anderer nachzuempfinden (Empathie), das Bewusstsein über eigene emotionale Vorgänge, Wege der Emotionsäußerung und das Bewusstsein über die Wirkung der eigenen Emotionen auf andere sowie die Fähigkeit zur Regulation der eigenen Emotionen.

Sternbergs Triarchisches Modell: Radikale Abkehr vom Hierarchie-Gedanken?

Das von Robert Sternberg postulierte Triarchische Modell, auch bekannt unter dem Namen Komponentenmodell, basiert auf der Informationsverarbeitungstheorie, die, grob gesagt, die menschliche Kognition als Informationsverarbeitungsprozess betrachtet, und gibt vor, eine radikale Abkehr von hierarchischen Strukturen und der Annahme voneinander abgrenzbarer Faktoren darzustellen. Es ist daher auch das einzige bekannte Intelligenzmodell, das nicht auf Faktorenanalysen beruht. Sternberg prägte hiermit auch eine neuartige Definition von Intelligenz und nannte als Teile der Definition die Elemente „Lernen aus Erfahrung“, „abstraktes Schlussfolgern“, „die Fähigkeit, sich einer sich ständig weiterentwickelnden und verändernden Umwelt anzupassen“ und „die Motivation, überhaupt neues Wissen bzw. Fertigkeiten zu erlangen“. Die ersten beiden Aspekte überlappen stark mit der kristallinen und der fluiden Intelligenz, die beiden letzten hingegen sind in der Tat relativ neu und haben bisher kaum Eingang in die Messung von Intelligenz gefunden.

Die eigentliche Intelligenztheorie von Sternberg ist hingegen sehr komplex und meiner Ansicht alles andere als leicht verständlich. Ich wage auch, die kühne Behauptung aufzustellen, dass sich diese Theorie kaum prägnant zusammenfassen lässt, weil sie sich teilweise in Einzelheiten verliert. Daher möchte ich mich darauf beschränken, einige meiner Meinung nach wichtige Teilaspekte der Theorie herauszustellen. Zunächst wird, abgeleitet von der Informationsverarbeitungstheorie, die wichtige Unterscheidung getroffen zwischen der Art des ablaufenden kognitiven Prozesses, der Genauigkeit, mit dem dieser abläuft, und der Art der mentalen Repräsentation, die diesem Prozess zugrunde liegt (z.B. bildliches oder sprachliches Material). Insofern erinnert es es schon an dieser Stelle stark an die oben beschriebenen mehrdimensionalen Modelle. Dann verliert sich die Theorie (meiner Auffassung nach) in mehr und mehr Unter-Theorien, die einen eher geringen Erklärungswert haben und darüber hinaus mehr Ähnlichkeit mit den bereits beschriebenen Modellen haben, als man eigentlich aufgrund der revolutionären Aura der Theorie erwarten würde. Wirklich eingängig ist mir lediglich die „Komponenten-Subtheorie“, die drei Intelligenzkomponenten beschreibt und im Gegensatz zum Rest relativ anschaulich ist. Und zwar stellt Sternberg hier die analytische Intelligenz (abstrakte Denkprozesse, die einer Problemlösung vorausgehen), die praktische Intelligenz (Lösung von Problemen durch Anpassung an die Umwelt, Formung einer Umwelt oder Auswahl einer passenden Umwelt) und die kreative Intelligenz (Nutzen von Erfahrungen zur Lösung von Problemen) dar. Diese, so Sternberg, seien aber nicht in ein hierarchisches System eingebunden und stellten auch keinerlei Intelligenzfaktoren im klassischen Sinne dar – vielmehr seien sie eine Beschreibung dessen, was die Intelligenz leisten muss. Was genau er damit meint, und in wiefern dieser Gedanke sich wirklich von den beschriebenen hierarchischen oder mehrdimensionalen Modellen unterscheidet, bleibt zumindest mir unklar. Fest steht, dass Sternberg keinen g-Faktor anerkennt – doch dies allein ist, wie ich ausführlich dargestellt habe, nichts Revolutionäres.

Fazit

Was ich hoffe, vermittelt zu haben, ist, dass es derzeit kein allgemeingültiges und eindeutiges Verständnis dessen gibt, was „Intelligenz“ ist, in wie vielen verschiedenen Formen sie vorliegt und ob es einen allem übergeordneten g-Faktor gibt. Wenn man sich die empirische Evidenz anschaut, muss man allerdings zugeben, dass die Existenz einer Allgemeinen Intelligenz bzw. eines solchen g-Faktors sehr wahrscheinlich ist, da sich die starken Zusammenhänge zwischen unterschiedlichsten Intelligenztestaufgaben nicht einfach so wegdiskutieren lassen. Weitere Evidenz für dieses Konstrukt der Allgemeinen Intelligenz findet sich übrigens auch aus der Anwendungsforschung, z.B. aus der Arbeits- und Organisationspsychologie, die ergeben hat, dass die Allgemeine Intelligenz mit Abstand der bester Prädiktor von Berufserfolg ist (Näheres dazu hier). Andererseits gibt es auch Belege, die deutlich zeigen, dass sich mit g auch nicht alles erklären lässt und eine Unterteilung auf unterer Ebene durchaus Sinn macht – so gilt die Unterscheidung zwischen kristalliner und fluider Intelligenz z.B. als gut belegt.

Für mich persönlich bedeutet dies, dass die „Wahrheit“ (sollte es diese denn geben) am ehesten durch ein Modell abgebildet wird, das dem von Cattell bzw. Carroll ähnelt – vom Konzept also einem solchen, wie Sie es in der obigen Abbildung finden. Bedenken Sie aber, dass all diese Modelle im Wesentlichen unterschiedliche Interpretationen der weitgehend gleichen Sachlage sind und somit automatisch auch von der jeweiligen Ideologie geprägt sind, die ein Forscher vertritt (z.B. bzgl. der Frage, ob es einen g-Faktor geben darf). Und nicht zu vergessen ist auch, dass die Modelle sich, wenngleich sie sich alle natürlich als neuartig und daher wichtig darstellen, im Grunde nicht besonders stark unterscheiden – wenn man einmal genau nachdenkt.

Im nächsten Teil wird es um die Fragen gehen, was es mit dem Intelligenzquotienten auf sich hat, wie Intelligenz in der Bevölkerung verteilt ist und ob es stimmt, dass wir immer intelligenter werden.