Warum Psychologie mehr mit Mathematik als mit einer Couch zu tun hat

Die landläufige Ansicht ist die, dass man, wenn man Psychologie studiert, vor allem lernt, andere Menschen zu analysieren und dass man in beruflicher Hinsicht grundsätzlich nur mit psychisch Kranken (“Verrückten”) zu tun hat. Nun, liebe Leserin bzw. lieber Leser – dies könnte nicht weiter an der Realität vorbei gehen. Was jedoch zutrifft, ist, dass auch ein sehr großer Teil derjenigen, die sich nach dem Abitur für ein Psychologiestudium entscheiden, diese Entscheidung auf Basis eines ähnlich falschen Bildes trifft und sich dann im ersten Semester wundert, warum irgendwie niemand ihnen etwas von Traumdeutung von verdrängten Bedürfnissen erzählt.

Wenn man sich die Inhalte des Psychologiestudiums ansieht, stellt man fest: Knapp die Hälfte der Lehrinhalte besteht aus Methodenlehre, Statistik, experimentellen Forschungspraktika und Dingen wie Testtheorie, Fragebogenkonstruktion und wissenschaftlicher Datenanalyse – mit anderen Worten: aus jeder Menge Mathematik und Computerarbeit. Zudem muss man das Studium mit einer eigenen wissenschaftlichen Arbeit (der Bachelor- und Masterarbeit oder im alten Diplomstudiengang der Diplomarbeit) abschließen, für die jeweils eine eigene empirische Untersuchung durchgeführt und ausgewertet werden muss. Wozu nun das ganze? Nun, wie schon im vorausgehenden Artikel beschrieben, ist die Psychologie eine empirische Naturwissenschaft, und ein wesentliches Hauptziel des Studiums besteht darin, die Studierenden zu Naturwissenschaftlern auszubilden – mit allem, was dazu gehört. Konkret bedeutet dies zweierlei: die Kenntnis wissenschaftlicher Methoden und Kenntnisse in der statistischen Datenanalyse.

Erstens gilt es (grob gesagt), sich Expertise darüber anzueignen, wie man welchen Forschungsfragen auf den Grund gehen kann. Hierzu gehört die komplette Gestaltung einer solchen Studie bzw. eines solchen Experiments, aus dem man dann am Ende auch tatsächlich aussagekräftige Schlussfolgerungen ziehen kann. Und das tatsächlich hinzubekommen, ist alles andere als leicht und rechtfertigt durchaus, dass nicht nur in den Methodenfächern selbst (die dann so schöne Namen haben wie “Forschungsmethoden der Psychologie”, “Versuchsplanung” oder “experimentelles Forschungspraktikum”), sondern in allen Fächern Wert darauf gelegt wird, die Prinzipien guter psychologischer Forschung deutlich zu machen. Im Hinblick auf das, was man bei der Planung eines psychologischen Experiments alles falsch machen kann, sind vor allem die interne und externe Validität zu nennen. Nehmen wir als Beispiel ein Experiment, in dem der Einfluss der Arbeitsbelastung auf das Stressempfinden von Probanden untersucht werden soll (eine ganz typische psychologische Fragestellung: Was ist der Einfluss von X auf Y?).

Interne Validität: Welchen Einfluss untersuche ich?

Die interne Validität ist gegeben, wenn Veränderungen in der abhängigen Variablen (Stressempfinden) ausschließlich auf die experimentelle Manipulation (also vom Versuchsleiter gesteuerte Veränderung) der unabhängigen Variablen (Arbeitsbelastung) zurückzuführen sind. Wenn aber in der Situation des Experiments noch andere Einflüsse vorhanden sind (so genannte Störvariablen), z.B. zusätzlicher Druck durch andere Probanden im selben Raum, dann weiß man ganz schnell schon nicht mehr, worauf etwaige Veränderungen der abhängigen Variablen (Stressempfinden) zurückzuführen sind: auf die experimentell kontrollierte Arbeitsbelastung oder auf die Anwesenheit der anderen Probanden? In diesem Fall ist die Lösung einfach: Jeder Proband muss einzeln getestet werden. Danach wären jedoch immer noch Einflüsse von anderen Störvariablen möglich: So könnte es z.B. eine Rolle spielen, ob der Versuchsleiter sich den Probanden gegenüber eher kühl-reserviert oder freundlich-motivierend verhält (ein so genannter Versuchsleiter-Effekt). Die Lösung hierfür wären standardisierte Instruktionen für jeden Probanden. Was ich hier beschreibe, sind, an einem sehr einfachen Beispiel dargestellt, typische Vorüberlegungen, die man vor der Durchführung einer psychologischen Studie unbedingt durchgehen sollte, um nicht am Ende ein Ergebnis ohne Aussagekraft zu haben. Wie ihr euch sicher vorstellen könnt, wird das ganze umso komplizierter, je schwieriger und spezifischer die Forschungsfrage ist. Besonders in der kognitiven Neurowissenschaft, wo es um die Untersuchung von Prozessen im Gehirn geht, kann dies schnell extreme Komplexitätsgrade annehmen. Was man daher unbedingt braucht, ist das Wissen aus der Methodenlehre, kombiniert mit spezifischem Wissen über dasjenige Fachgebiet, in dem man gerne forschen möchte.

Externe Validität: Gilt das Ergebnis für alle Menschen?

Die externe Validität ist derweil gegeben, wenn (die interne Validität vorausgesetzt), das Ergebnis der Studie verallgemeinerbar ist, d.h. repräsentativ. Dies ist vor allem eine Frage der Merkmale der Stichprobe (die Gruppe von Probanden, die man untersucht). Vor allem interessiert dabei deren Größe (bzw. Umfang), die insbesondere aus statistischer Sicht zentral ist, sowie deren Zusammensetzung. So leuchtet einem ziemlich gut ein, dass das Ergebnis einer Studie nur dann Aussagen über alle Menschen ermöglicht, wenn die Stichprobe auch repräsentativ für die Gesamtbevölkerung ist – also z.B. nicht nur weibliche Studierende einer bestimmten Altersklasse und einer bestimmten sozialen Schicht enthält. Tatsächlich konnte allerdings für sehr viele psychologische Merkmale gefunden werden, dass sie überraschend unabhängig von solchen Unterschieden sind, sodass die externe Validität häufig eine untergeordnete Rolle spielt (was allerdings auch mit daran liegt, dass es sehr aufwändig und teuer ist, repräsentative Stichproben zusammenzusetzen – Psychologiestudierende sind aufgrund der guten Verfügbarkeit einfach dankbare Versuchspersonen:-)).

Die operationale Definition: Messe ich, was ich messen will?

Neben interner und externer Validität ist auch die operationale Definition ein Punkt, an der sich gute Forschung von schlechter trennt. Gemeint ist hiermit die Übersetzung der abstrakten Variablen (unabhändige und abhängige) in konkrete, messbare Größen. Um zu meinem Beispiel von oben (Einfluss von Arbeitsbelastung auf Stressempfinden) zurückzukehren, müsste man sich also überlegen, wie man die Arbeitsbelastung und das Stressempfinden misst. Dies ist ein Punkt, der auf den ersten Blick vielleicht trivial erscheint und der einem Laien, wenn er über die Logik der Studie nachdenkt, wahrscheinlich auch nicht auffallen wird, der aber ebenfalls von zentraler Bedeutung für die Aussagekraft der Studie ist. Ebenso wie die Stichprobe repräsentativ für die Bevölkerung sein sollte, sollten die gemessene Größe (abhängige Variable) und die manipulierte Größe (unabhängige Variable) repräsentativ für das Konstrukt (Arbeitsbelastung, Stress) sein, das sich dahinter verbirgt. Die Arbeitsbelastung lässt sich noch recht einfach operational definieren – als Menge an Arbeitsaufträgen pro Stunde zum Beispiel. Aber wie sichert man, dass alle Aufträge auch wirklich gleich aufwändig sind und den Probanden gleich viel Zeit kosten? Dies ist eine Herausforderung für die Versuchsplaner. Das Stressempfinden stellt eine noch größere Herausforderung dar. Man könnte natürlich eine Blutprobe nehmen und die Konzentration des Cortisols (eines unter Stress ausgeschütteten Hormons) bestimmen. Das gibt aber nicht unbedingt den subjektiv empfundenen Stress wieder. Man könnte eben diesen mit einem eigens dafür konstruierten Fragebogen messen, der natürlich auf seine psychometrischen Gütekriterien hin überprüft werden muss (mit wie viel Aufwand und wie viel Rechnerei das verbunden ist, können sie hier nachlesen). Oder aber man lässt Fremdbeobachter den Stress der Probanden anhand deren Verhaltens einschätzen. Hierfür muss wiederum gesichert werden, dass die verschiedenen Beobachter ihre Bewertungen anhand desselben, auf beobachtbaren Verhaltensweisen basierenden Systems vornehmen und nicht irgendwelche subjektiven Einschätzungen vornehmen (das Kriterium der Objektivität). Was ich hoffe, hieran veranschaulicht zu haben, ist, dass psychologische Forschung weder trivial noch einfach ist, denn der Teufel liegt im Detail. Und von diesen kleinen Teufeln gibt es jede Menge, die man nur mit der nötigen wissenschaftlichen Expertise umgehen kann.

Statistik: Zufall oder nicht?

Die Statistik als Teilgebiet der Mathematik verdient sehr viel mehr, mit “Psychologie” in einem Atemzug genannt zu werden, als das Wort “Couch”. So komplex das Thema ist, mit dem Psychologiestudierende sich eine ganze Reihe von Semestern herumschlagen müssen, so kurz und verständlich lässt sich der Zweck erklären. Denken Sie zurück an die typischen Forschungsfragen, die die Psychologie bearbeitet. Meistens geht es darum, den Zusammenhang zwischen zwei Variablen (z.B. Intelligenz & Arbeitserfolg, siehe vorheriger Artikel) zu berechnen, eine Variable durch eine andere vorherzusagen oder im Rahmen eines Experiments systematisch den Einfluss einer unabhängigen auf eine abhängige Variable zu untersuchen. Auch hier hinterfragt der Laie typischerweise nicht, wie das geschieht – wie Forscher z.B. darauf kommen, zu behaupten, “Killer”-Spiele würden die Aggression des Spielers erhöhen. Nun, dies ist einerseits eine Frage der wissenschaftlichen Methode, wie ich oben ausführlich beschrieben habe. Doch nach dem Durchführen der Studie hat man einen Haufen Daten gesammelt – und der muss ausgewertet und analysiert werden. Zum Analysieren werden die Daten derweil nicht auf die Couch gelegt, sondern in den Computer eingegeben, konkret in typischerweise eines der beiden Programme “SPSS” oder “R”. Diese Programme ermöglichen es, für alle möglichen Formen, in denen Daten vorliegen können (und das sind sehr viele), statistische Maße zu berechnen, die den Zusammenhang zweier Variablen oder den Einfluss von einer Variablen auf die andere abbilden. Zum Fachjargon gehören bei Psychologen unter anderem (um einfach mal ein paar Begriffe ungeordnet in den Raum zu werfen) die Korrelation (von allen noch das nachvollziehbarste Maß), die multiple, logistische, hierarchische oder Poisson-Regression, das odds ratio, Kendall’s Tau-b, die Varianzanalyse oder ANOVA, das allgemeine und generalisierte lineare Modell, Faktorenanalysen, Strukturgleichungsmodelle, Survivalanalysen und viele, viele mehr.

Die Berechnung all dieser Maße ist der eine Zweck der Statistik. Der andere ist die Überprüfung der statistischen Signifikanz, die auf der Wahrscheinlichkeitstheorie und der Kenntnis ganz bestimmter Wahrscheinlichkeitsverteilungen beruht. Platt übersetzt ist ein Ergebnis einer Studie dann statistisch signifikant, wenn es nicht durch den Zufall zu erklären ist. Hierzu stellen wir uns einmal die allereinfachste Form eines psychologischen Experiments vor: den Vergleich von zwei Gruppen A und B, die sich nur anhand eines einzigen Merkmals unterscheiden – der experimentellen Manipulation der unabhängigen Variablen (z.B. Therapie ja oder nein), deren Einfluss auf eine abhängige Variable (z.B. Angst vor Spinnen) untersucht werden soll. Nach der Therapie vergleicht man A und B hinsichtlich ihrer Angst vor Spinnen und stellt fest, dass Gruppe A, die die Therapie erhalten hat, weniger Angst hat als Gruppe B, die keine Therapie erhalten hat (einen ausführlichen Artikel über die Art und Weise, wie die Wirksamkeit von Psychotherapie untersucht wird, finden Sie hier). Ein Laie würde jetzt wahrscheinlich sagen, dass die Therapie wirksam ist, vielleicht in Abhängigkeit davon, wie groß der Unterschied zwischen A und B ist. Das Tolle, das uns die Statistik ermöglicht, ist nun, zu überprüfen, ob der gefundene Unterschied zwischen den Gruppen signifikant ist, d.h. nicht durch den Zufall erklärt werden kann, der ja mitunter so einiges erklären kann. So berechnet man die konkrete Wahrscheinlichkeit dafür, dass das gefundene Ergebnis (z.B. der Gruppenunterschied zwischen A & B) durch reinen Zufall zustande gekommen ist, ohne das ein wahrer Unterschied (bzw. Effekt) vorliegt. Beträgt diese Warscheinlichkeit unter 5% (manchmal auch unter 1%), schließt man den Zufall als Erklärung aus. Achtung: Diese Festlegung der 5% oder 1%-Grenze (des so genannten Signifikanzniveaus) ist eine Konvention, keine naturgegebene Regel. Wenn der Stichprobenumfang groß genug ist (ein wichtiger Faktor bei der Überprüfung der Signifikanz), können übrigens auch schon kleine Effekte (z.B. Gruppenunterschiede) statistisch signifikant sein. Ob ein solcher kleiner Unterschied dann jedoch wirklich von Bedeutung ist, ist eine andere (inhaltliche) Frage. Wie ihr seht, erweist die Statistik uns sehr wertvolle Dienste – und auch, wenn ich sie in meinem Studium sehr häufig verflucht habe, bin ich rückblickend doch sehr froh, mit ihr jetzt vertraut zu sein.

Warum Ahnung von Wissenschaft Gold wert ist

Das allgemeine Wissen über die Prinzipien wissenschaftlicher Forschung (die nämlich in jeder Naturwissenschaft nahezu gleich sind) erachte ich als extrem wertvoll, weil es einem etwas unglaublich Wichtiges ermöglicht: zu beurteilen, welchen Quellen von Wissen man trauen kann und welchen nicht. Mit den Merkmalen von “guter”, d.h. aussagekräftiger Forschung im Kopf, ist es einem wissenschaftlich ausgebildeten Menschen möglich, zu beurteilen, ob er einer beliebigen Studie (egal, ob veröffentlicht in einer wissenschaftlichen Fachzeitschrift oder erwähnt in der Brigitte) Glauben schenken möchte. Ein solcher Mensch kann die angewandte Methode der Studie genau daraufhin überprüfen, ob die Voraussetzungen dafür geschaffen sind, dass man hieraus tatsächlich gültige Schlussfolgerungen ziehen kann (z.B. interne Validität gegeben, vernünftige operantionale Definition…). Man fällt nicht so schnell darauf rein, wenn es bei RTL in den Nachrichten heißt, Forscher von der Universität XV hätten “herausgefunden, dass…” (oder noch schlimmer: “bewiesen, dass…”), sondern fragt sich erstmal, wie die Forscher das überhaupt untersucht haben könnten und ob eine solche Aussage auf Basis der verwendeten Forschungsmethode überhaupt zulässig ist. Nicht zuletzt lernt man hierdurch, vermeintliches “Wissen”, das einem im Alltag so begegnet, dahingehend zu hinterfragen, woher es stammt bzw. worauf es basiert – eine Kenntnis von meiner Meinung nach unschätzbarem Wert, ermöglicht es einem doch z.B., der ein oder anderen bunt-schillernden esoterischen Weltanschauung etwas Handfestes entgegen zu setzen und diese als substanzlos zu entlarven. Und eben diese grundsätzliche naturwissenschaftliche Expertise ist das, was Psychologen den Vertretern anderer Fächer (Medizin und Pädagogik eingeschlossen) voraushaben, was sie wiederum aber mit der ebenfalls empirisch orientierten Soziologie verbindet. Darüber, wovon Psychologen darüber hinaus noch so Ahnung haben, wird es im nächsten Artikel gehen.

© Christian Rupp 2013

Warum Psychologen im Studium nicht lernen, ihr Gegenüber zu analysieren

Es ist das Cliché schlechthin, das in der breiten Gesellschaft über Psychologen und Psychologiestudierende kursiert, und damit verbunden ist eines der größten Irrtümer überhaupt, mit dem dieses Fach zu kämpfen hat. In diesem und im nächsten Artikel soll es darum gehen, kurz und bündig darzustellen, was man im Studium der Psychologie wirklich lernt, was beispielhafte Inhalte psychologischer Forschung sind, was fertige Psychologen tatsächlich können und worüber sie Bescheid wissen – und womit sie auf der anderen Seite nichts zu tun haben.

Psychologie, eine empirische Naturwissenschaft

Psychologie hat in der Gesellschaft oft einerseits den Ruf eines Heilberufes wie die Medizin, manchmal auch den eines “Laber-Fachs” ohne Substanz, weil Psychologen ja angeblich immer nur reden. Gleichzeitig haben Psychologen für viele Laien etwas Unheimliches an sich, geht doch das Gerücht um, sie würden ihr Gegenüber wie eine durchsichtige Figur analysieren und in jedem Wort etwas finden, was man doch eigentlich verbergen wollte. Nicht zuletzt hat Psychologie, ebenso wie Medizin, den Ruf eines Elite-Studienfachs, da man, um es zu studieren, aufgrund der wenigen Studienplätze und der hohen Nachfrage meist einen Abiturdurchschnitt von mindestens 1,5 aufweisen muss. Doch was erwartet einen nun wirklich im Studium?

Psychologie an sich ist weder ein Heilberuf wie die Medizin, noch eine Geisteswissenschaft wie Philosophie oder Pädagogik, noch beinhaltet es die Vermittlung von übernatürlichen Fähigkeiten. Psychologie ist eine Naturwissenschaft, die, grob gesagt, menschliches Verhalten und Erleben dahingehend untersucht, dass sie versucht, es vorherzusagen und zu erklären. Sie ist derweil eine empirische, keine theoretische Wissenschaft, d.h., sie sucht nach Erkenntnissen nicht durch die logische Herleitung von Theorien, sondern durch die systematische Untersuchung des menschlichen Verhaltens und Erlebens. Dies tut sie durch das Aufstellen und das darauf folgende Testen von Hypothesen. Basierend auf empirischen Befunden (also den Ergebnissen aus wissenschaftlichen Studien) werden dann wiederum Theorien formuliert, die diese Ergebnisse erklären können – und die dann durch darauf folgende Studien entweder bestätigt oder widerlegt werden. Die Psychologie folgt dabei weitgehend der Wissenschaftstheorie Carl Poppers, die besagt, dass man in der Wissenschaft nie etwas schlussendlich beweisen kann, sondern nur weitere Bestätigung für eine Theorie oder Hypothese sammeln kann. Das einzige, was endgültig möglich ist, ist, eine Theorie oder Hypothese zu widerlegen (d.h., zu falsifizieren). Mehr zum Thema Wissenschaftstheorie finden sie hier.

Da die Psychologie ein unglaublich weites Feld darstellt, kann dies sehr, sehr viele verschiedene Formen annehmen. Besonders gern wird mit Experimenten gearbeitet, bei denen typischerweise zwei Gruppen von Probanden (d.h. Versuchtsteilnehmern) miteinander verglichen werden, die sich nur dadurch unterscheiden, dass bei der einen eine experimentelle Manipulation stattgefunden hat und bei der anderen nicht. Unterscheiden sich die beiden Gruppen danach hinsichtlich eines bestimmten Merkmals (das abhängige Variable genannt wird), kann man sicher sein, dass dieser Unterschied nur auf die experimentelle Manipulation zurückzuführen ist. Zudem werden sehr oft Zusammenhänge zwischen Merkmalen (d.h. Variablen) untersucht, z.B. zwischen Intelligenz und späterem Berufserfolg. Dies erfolgt in der Regel durch die Berechnung von Korrelationen. Wenn die eine Variable zeitlich deutlich vor der anderen gemessen wird, kann man zudem Aussagen darüber treffen, wie gut die eine Variable (z.B. Verlustereignisse in der Kindheit) die andere (z.B. Entwicklung einer Depression im Erwachsenenalter) vorhersagen (oder prädizieren) kann. Um einen Eindruck von typischen Sorten von psychologischen Studien zu vermitteln und die ganzen kursiv gedruckten Begriffe ein wenig mit Leben zu füllen, seien im Folgenden vier Beispiele aus verschiedenen Bereichen der Psychologie genannt.

1. Arbeits- & Organisationspsychologie: Wie kann man Berufserfolg vorhersagen?

Dies ist ein Beispiel für eine Korrelationsstudie, bei der anhand der Intelligenz der Berufserfolg mehrere Jahre später vorhergesagt werden soll. Eine solche Erkenntnis ist von großem Wert für Psychologen, die in der freien Wirtschaft in der Personalauswahl tätig sind und die natürlich ein Interesse daran haben, solche Bewerber für einen Job auszuwählen, von denen erwartet werden kann, dass sie dem Unternehmen in Zukunft Geld in die Kasse spülen. Man geht hierbei so vor, dass man zu einem ersten Zeitpunkt die allgemeine Intelligenz einer Gruppe von Personen misst, die sich z.B. in dieser Gruppe zwischen 90 und 125 bewegt. Hierzu muss natürlich ein psychologischer Test gewählt werden, der präzise misst und gültige Aussagen über die Personen erlaubt. Zu einem späteren Zeitpunkt (z.B. 3 Jahre später) wird dann der Berufserfolg derselben Personen gemessen. Das kann man auf verschiedene Weise tun: Man kann das Einkommen oder die Berufszufriedenheit von den Probanden selbst erheben, oder man kann die jeweiligen Vorgesetzten bitten, die Leistung der Probanden zu bewerten. Die Übersetzung des recht allgemeinen Begriffs “berufliche Leistung” in konkret messbare Variablen nennt man derweil die operationale Definition.

Wenn man dann beides gemessen hat, kann man den Zusammenhang der beiden Variablen (Intelligenz & Berufserfolg) berechnen, was mittels einer Korrelation erfolgt. D.h., man möchte wissen, ob im Mittel über alle Probanden hinweg höhere Intelligenzwerte mit höherem Berufserfolg einhergehen. Achtung: das bedeutet, dass diese Aussage nicht für jeden Probanden gelten muss: Es wird immer Ausnahmen geben, die dem generellen Trend widersprechen – aber dieser generelle Trend ist von Bedeutung. Wie stark dieser Trend ist, kann man am Korrelationskoeffizienten ablesen, der zwischen -1 und +1 variieren kann. -1 stünde für einen perfekten negativen Zusammenhang (je intelligenter, desto weniger erfolgreich im Beruf), +1 für einen perfekten positiven Zusammenhang (je intelligenter, desto erfolgreicher) und 0 für keinen Zusammenhang (Berufserfolg hat nichts mit Intelligenz zu tun).

Im Falle des Zusammenhangs zwischen Intelligenz und Berufserfolg wurde in Metaanalysen (das sind statistische Verfahren, mit denen die Ergebnisse vieler Studien zum gleichen Thema zusammengefasst werden) herausgefunden, dass Intelligenz späteren Berufserfolg mit durchschnittlich 0,5 vorhersagt. Das ist in der Psychologie ein verdammt hoher Wert – und es ist von allen Variablen, die man zur Vorhersage von Berufserfolg herangezogen hat (u.a. Leistung in Assessment Centern, Persönlichkeitsmerkmale, Arbeitsproben, Referenzen früherer Arbeitgeber…) diejenige, die am allerbesten Berufserfolg vorhersagt (man sagt auch, Intelligenz stellt den besten Prädiktor für Berufserfolg dar). Zum Vergleich: Die bei Unternehmen sehr beliebten Assessment-Center zur Bewerberauswahl, die das Unternehmen gerne mehrere zehntausend Euro kosten, haben mit späterem Berufserfolg nur einen Zusammenhang von ungefähr 0,3, sagen diesen also sehr viel weniger verlässlich vorher. Dass Unternehmen in der Bewerberauswahl dennoch die viel teureren Assessment-Center einsetzen, hat einerseits mit der mangelhaften Kenntnis wissenschaftlicher Befunde zu tun, andererseits aber auch mit den beiden Tatsachen, dass die Anbieter von Assessment Centern gut daran verdienen und Intelligenztests trotz ihrer erwiesenen Vorteile oft angstbesetzt und daher verschrien sind.

2. Kognitive Neurowissenschaft: Wie unser Gehirn sich Gedächtnisinhalte einprägt

Hierbei handelt es sich ein Experiment aus einem vergleichsweise jungen Teilgebiet der Psychologie, der kognitiven Neurowissenschaft, die sich mit der Frage befasst, welche Prozesse im Gehirn unseren kognitiven Funktionen (Wahrnehmung, Aufmerksamkeit, Gedächtnis, Denken, Problemlösen, Entscheiden etc.) sowie auch unseren Emotionen zugrunde liegen. Viele psychologische Studien haben sich damit beschäftigt, wie unser Gedächtnis funktioniert. Die Studienart, die ich vorstellen möchte, widmet sich der Frage, wie unser Gehirn es schafft, dass wir uns Gedächtnisinhalte einprägen (d.h. enkodieren) können. Hierbei handelt es sich um eine Leistung des so genannten Arbeitsgedächtnisses, das früher als Kurzzeitgedächtnis bezeichnet wurde und eine begrenzte Menge von Material für maximal wenige Minuten aufrechterhalten kann. Dies ist abzugrenzen von unserem Langzeitgedächtnis, in das Gedächtnisinhalte eingehen, die aufgrund häufiger Wiederholung so weit gefestigt (d.h., konsolidiert) sind, dass sie dauerhaft gespeichert sind. Für diese Konsolidierung ist eine evolutionär alte und innen liegende Gehirnstruktur, der Hippocampus notwendig. Für das Einprägen bzw. das Enkodieren von Gedächtnisinhalten (eine Funktion, die konzeptuell Arbeits- und Langzeitgedächtnis verbindet) sind wiederum andere Gehirnareale verantwortlich.
Um herauszufinden, welche, haben sich Psychologen eines sehr eleganten Designs (so wird generell der Aufbau eines Experiments bzw. einer Studie bezeichnet) bedient, das folgendermaßen aussah: Während Versuchspersonen in einer fMRT-Röhre lagen (mit dem fMRT kann recht präzise die Aktivität einzelner Gehirnareale untersucht werden), wurden sie gebeten, sich in vorgegebener Reihenfolge eine Liste mit Wörtern so gut wie möglich einzuprägen. Außerhalb der Röhre wurden sie dann einige Zeit später gebeten, so viele Wörter wie möglich zu erinnern. Typischerweise berichten Probanden dann zwischen 50 und 75% der Wörter. Was dann kommt, ist wirklich außerordentlich clever und elegant: Man vergleicht die im fMRT gemessene Gehirnaktivität während des Einprägens derjenigen Wörter, die anschließend erinnert wurden, mit der Gehirnaktivität während des Einprägens von Wörtern, die anschließend nicht erinnert werden konnten. Wenn sich dann eine bestimmte Gehirnregion findet, die in den beiden Fällen unterschiedliche Aktivität aufweist, ist sie offenbar an dem oben beschriebenen Einpräge-Prozess beteiligt: Hohe Aktivität führt zu einer höheren Erinnerungswahrscheinlichkeit für Wörter und spiegelt eine intensivere Enkodierung wieder. Genau das wurde für verbale Gedächtnisinhalte (Wörter) für ein kleines Areal im frontalen Cortex gefunden, den linken inferioren frontalen Gyrus – auch bekannt als Broca-Areal. Dieses Areal ist auch essentiell für unsere Fähigkeit, zu sprechen, was darauf hinweist, dass das Einprägen von Wörtern eine Art “innere Stimme” nutzt, mit der die Wörter immer wieder wiederholt werden. Für visuelle Stimuli (z.B. Bilder) wurden währenddessen andere Gehirnareale gefunden, die für die Enkodierung wichtig sind.

3. Klinische Psychologie: Interaktion von Genetik und frühen Traumata bei Depression

In der klinischen Psychologie interessiert man sich neben der Untersuchung der Wirksamkeit von Psychotherapie im Rahmen kontrollierter Studien vor allem für die Frage nach der Ursache von psychischen Störungen. Bezüglich Depression weiß man, dass sowohl Stress in Form einschneidender und traumatischer Lebensereignisse (z.B. früher Verlust enger Bezugspersonen) als auch bestimmte Varianten eines Gens (des so genannten 5HTT-LPR-Polymorphismus) einen Risikofaktor für die Entwicklung einer späteren Depression darstellen. Was man hingehen lanfe Zeit nicht wusste, ist, wie genau diese Faktoren sich zueinander verhalten. Um dies zu untersuchen, führten die Wissenschaftler Caspi und Kollegen eine im Jahr 2003 veröffentlichte Längsschnittstudie durch. Das bedeutet, dass sie Probanden über mehrere Jahre begleiteten und im Zuge dessen einerseits durch Genanalysen die Ausprägung des oben genannten Gens und andererseits die im Laufe der Jahre aufgetretenen einschneidenden Lebensereignisse sowie die Zahl der Probanden, die eine Depression entwickelten, erfassten.

Das Ergebnis war verblüffend und schlug in der klinischen Psychologie wie eine Bombe ein: Sowohl die kritische Variante des Gens erhöte das Risiko für die Entwicklung einer Depression als auch die Anzahl der kritischen Lebensereignisse im Sinne einer “je mehr, desto höher”-Verbindung. Das ist an sich wenig überraschend, aber interessanterweise fanden die Autoren auch, dass der Einfluss der Zahl der Lebensereignisse sehr viel größer war, wenn die kritische Genausprägung (d.h. der unkritische Genotyp) im Gegensatz zur unkritischen vorlag. Und auch das Gegenteil war aus den Daten ersichtlich: Der Einfluss des Genotyps auf das Depressionsrisiko war erst von Bedeutung, wenn zwei oder mehr kritische Lebensereignisse vorlagen, vorher nicht. Man spricht in diesem Fall von einer Gen-Umwelt-Interaktion. Diese Ergebnisse haben eine sehr weitreichende Bedeutung für das Verständnis der Depression und die Art und Weise, wie sich genetische Ausstattung und Umweltfaktoren zueinander verhalten.

4. Sozialpsychologie: Saying-is-Believing – Ich glaube, was ich sage

Hierbei handelt es sich um ein klassische Sorte von Experimenten (ein so genanntes Paradigma) der Sozialpsychologie, die sich mit dem Verhalten von Menschen in sozialen Situationen beschäftigt. Der Saying-is-Believing-Effekt besagt, dass wir, wenn wir wissen, dass unser Gegenüber eine bestimmte Einstellung oder Meinung vertritt, ihm gegenüber auch hauptsächlich Dinge erwähnen, die mit dessen Meinung übereinstimmen – und in der Folge sich unsere eigene Einstellung der unseres Gegenübers angleicht. Dies weiß man aus Experimenten, in denen Versuchspersonen z.B. per Chat mit einer meist fiktiven (d.h. in die Studie eingeweihten) Person kommunizierten, über die sie entweder die Information erhielten, dass diese hinsichtlich eines bestimmten Themas ihrer Meinung oder anderer Meinung waren. Diese Information stellt hier die experimentelle Manipulation dar. So könnte die Information z.B. darin bestehen, dass das unbekannte Gegenüber ein Fan von Lady Gaga ist, während der Proband selbst zu Beginn die Information gegeben hat, dass er diese überhaupt nicht gut findet oder ihr neutral gegenüber steht. In der Kommunikation erwähnt der Proband dem fiktiven Gegenüber dann typischerweise tendenziell positive Dinge über Lady Gaga, was dazu führt, dass sich seine Einstellung dieser gegenüber ins Positive hin verändert – was man sehr gut nach der Kommunikationsphase anhand eines eigens dafür entwickelten Fragebogens erfassen kann.

Das war ein kleiner Einblick in verschiedene Forschungsthemen aus unterschiedlichen Fächern der Psychologie, mit dem ich hoffe, deutlich gemacht zu haben, wie facettenreich dieses Fach ist und wie wenig es mit dem zu tun hat, was die meisten Menschen generell im Kopf haben, wenn sie das Wort “Psychologie” hören. In den folgenden Artikeln wird es darum gehen, warum das Psychologiestudium so voller Statistik und Mathematik ist, mit wie vielen verschiedenen Themen Psychologen sich tatsächlich auskennen und warum Sigmund Freud weder der Begründer der Psychologie ist noch in dieser eine bedeutende Rolle spielt.

Psychologische Tests – Teil 3: Von diesen “Tests” sollten Sie lieber die Finger lassen

Nach den “echten” psychologischen Tests folgen nun die “unechten” – in dem Sinne, dass diese keine validen Aussagen über Sie als Person treffen können. Auch in diesem Teil habe ich die vielen verschiedenen Vertreter wieder zu möglichst übersichtlichen Kategorien zusammengefasst. Beginnen wir also.

“Tests” aus Klatschzeitschriften

Wer kennt das nicht? Auf der Titelseite der “Woman”, “Tina”, “Frau im Spiegel”, und wie sie sonst noch alle heißen, locken Schlagzeilen wie “So finden Sie heraus, welcher Persönlichkeitstyp Sie sind!” oder “Wie eifersüchtig sind Sie?”. Wie deutlich erkennbar ist, handelt es sich hierbei um vermeintliche “Tests” aus dem Bereich der Persönlichkeitsdiagnostik. Aber auch “Intelligenztests” werden von Zeit zu Zeit angeboten (“Testen Sie, wie schlau sie sind!” / “Wie hoch ist Ihr IQ?”).

Fallen Sie hierauf nicht herein. Diese Tests wurden zwar manchmal tatsächlich von Psychologen entwickelt und sind somit teilweise nicht völlig ohne Substanz, aber sämtliche Gütekriterien, die einen psychologischen Tests ausmachen, sind meistens nicht gegeben. Die objektive Anwendung ist nicht gewährleistet, die Normierung fehlt, die Reliabilität und die Validität sind nicht untersucht. Wie auch? Ein solcher Fragebogen muss in wenigen Tagen oder sogar Stunden entstehen – bis ein echter psychologischer Test veröffentlicht wird, muss er viele aufwendige Entwicklungsstadien durchlaufen – Studien zur Reliabilität, Validität und Normierung.
Manchmal sind Tests in solchen Zeitschriften aber auch “echten” Tests entnommen – das muss aber dann vermerkt werden. Weil dabei aber Lizenzgebühren fällig werden, ist es oft billiger, sich “schnell mal selbst” etwas aus den Fingern zu saugen.

Projektive Testverfahren

Projektiven Tests (die in der Psychologie tatsächlich angewendet wurden und teilweise noch werden) ist gemeinsam, dass der Teilnehmer mit unstrukturiertem, d.h. mehrdeutigem Material konfrontiert wird. Im TAT (siehe Reihe zu “Motivation”) erzählt der Teilnehmer eine Geschichte zu einem mehrdeutigen Bild, und im relativ bekannten Rorschach-Test werden die Teilnehmer aufgefordert, zu sagen, was ein bestimmter Tintenklecks darstellt (Der Rorschach-Test wurde übrigens ursprünglich nur dazu entwickelt, die Wahrnehmung von Schizophreniepatienten zu untersuchen).

Das Problem, das bei all diesen Verfahren besteht, ist die Annahme, dass der Teilnehmer etwas auf das mehrdeutige Material projiziert, was ihm nicht bewusst ist. Gemäß Sigmund Freuds Theorie wären das vor allem verdrängte Triebe und Wünsche (meistens: Sex). Wenn jemand nun sagt, er erkenne in einem Tintenklecks ein männliches Geschlechtsorgan, wird das als eine Projektion der unterdrückten Libido angesehen. Wie welche Antwort zu deuten ist, hängt größtenteils von der Erfahrung des Testleiters ab und ist deshalb wenig objektiv.

Zudem konnte die Theorie Freuds nie wirklich bestätigt werden, weshalb er übrigens auch in der modernen wissenschaftlichen Psychologie keine bedeutende Rolle spielt (obwohl man ihm zugute halten muss, dass er durch seine kontroversen Theorien viele fruchtbare Diskussionen angeregt und viel Forschung angestoßen hat). Es ist unklar, was da projiziert wird: verdrängte Wünsche und Bedürfnisse oder vielleicht doch einfach Ideen, die einem durch den Kopf gehen, weil man sich gerade zuvor damit beschäftigt hat? Oder projiziert der Teilnehmer vielleicht eigene Eigenschaften auf das Material? Oder einfach nur seinen aktuellen Gefühlszustand, z.B. Angst?

Was ich damit sagen will, ist, dass das größte Problem dieser Verfahren die fehlende Validität ist, wobei der TAT (oder vielmehr dessen Weiterentwicklung – die Picture Story Exercises von McClelland) hierbei eine Ausnahme darstellt, da dort die Objektivität, die Realiabilität und die Validität im Hinblick auf implizite Motive zumindest teilweise gesichert sind. Da sie keine quantitativen Daten (=Zahlen) liefern, ist auch keine Normierung möglich (siehe auch Teil 1). Von Objektivität bei der Deutung und Interpretation kann keine Rede sein, und die Untersuchung der Reliabilität ist kaum möglich, da man sonst Teilnehmer bitten müsste,  zweimal hintereinander dieselbe Geschichte zu erzählen oder denselben Klecks zu deuten.

Anbei gibt es noch ein wunderschönes Beispiel für einen völlig unsinnigen Test, der sogar von Hogrefe (dem Verlag, der die meisten psychologischen Tests veröffentlicht) verkauft wird, obwohl sämtliche Gütekriterien nicht erfüllt sind: der Baum-Test. Hier soll angeblich die Art und Weise, wie der Teilnehmer einen Baum zeichnet (z.B. vereinfacht-schematisch oder realistisch mit Blättern und Ästen) Aufschluss geben darüber, wie erwachsen bzw. reif ein Mensch ist.

Die unten stehenden Bilder zeigen zwei entsprechende Baum-Bilder (links die Zeichnung, die als “infantil gelten würde, rechts die “erwachsene” Version) sowie einen (von mir selbst gezeichneten, keinen originalen) Rorschach-Klecks (Was meinen Sie, was der Klecks darstellt: einen Fisch, eine Wolke, ein Raumschiff,…?).

IMG_2869 IMG_2871

Der kinesiologische Muskeltest

Dieser Test gehört zu den diagnostischen Methoden der spirituell-alternativer Heilmethoden. Der Begriff “Kinesiologie” bezeichnet sowohl diese der Chiropraktik und Körpertherapie entstammenden Methoden als auch die seriöse Wissenschaft der motorischen Abläufe im Körper. Der oben genannte Test ist ein wunderbares Beispiel für einen unvaliden Test, der, obwohl er keinerlei gültige Aussagen über eine Person zulässt, trotzdem immer mehr Anhänger (darunter auch wissenschaftlich ausgebildete Personen wie Psychologen und Ärzte) findet.

Dieser Test wird für nahezu alle Fragestellungen angewendet, die den Menschen betreffen, was für sich alleine genommen schon sehr zweifelhaft ist. Vereinfacht gesagt, läuft es so ab: Der Patient hält seinen Arm so hoch, dass er parallel zum Boden verläuft, und der Kinesiologe (oft sind das Heilpraktiker mit einer Affinität zu esoterischen und spirituellen Methoden) stellt eine Frage. So gut wie immer handelt es sich um binäre Fragestellungen, d.h. solche, die nur mit ja oder nein beantwortet werden können (auch sehr sinnvoll im diagnostischen Prozess – Vorsicht Sarkasmus). Diese können seriös-biologischer Natur sein (“Ist das Immunsystem intakt?”, “Ist der Körper mit Schwermetallen belastet?”), oder aber spirituell-esoterischer Qualität (“Ist der Körper mit Erdstrahlen belastet?”, “Liegen innere Blockaden vor?”, “Ist die Aura durch den Geist eines Verstorbenen angegriffen?”, oder auch “Ist die Entscheidung des Patienten für X die falsche”). Dann versucht der Kinesiologe, den Arm des Patienten herunterzudrücken. Wenn er dies schafft, ist die Antwort auf all die Beispielfragen “ja”, wenn er es nicht schafft, “nein”.

Die Idee dahinter ist, dass sämtliche negative Ereignisse und Zustände im Körper (Erdstrahlen, Schwermetalle, innere Blockaden, falsche Entscheidungen…) den Muskeltonus mindern und somit dafür sorgen, dass im Moment nach der Fragestellung die Muskelanspannung verschwindet und der Arm gegen den Willen des Patienten heruntergedrückt werden kann.

Der Test wurde natürlich wissenschaftlich untersucht und erwies sich bezüglich all der Dinge, die man tatsächlich erfassen kann (Erdstrahlen & Co. fallen hier natürlich raus ) als völlig unvalide, was bedeutet, dass er keinerlei korrekte Aussagen über den Zustand einer Person zulässt. Zudem muss angemerkt werden, dass es für das Erschlaffen der Muskeln in einem solchen Moment zahlreiche andere Erklärungen gibt, z.B. dass durch die Fokussierung der Aufmerksamkeit auf ein unangenehmes Thema die Spannung im Arm nachlässt. Die meisten Kinesiologen lehnen diese Befunde sowie die naturwissenschaftliche Denkweise schlichtweg ab, ohne dabei triftige Gründe nennen zu können.

 “Lügendetektortests”: Kann man tatsächlich überprüfen, ob das Gegenüber flunkert?

Wenn ich vom klassischen “Lügendetektor” spreche, meine ich das Gerät, welches in Fachkreisen als Polygraph bekannt ist. Dieses Gerät zeichnet verschiedene physiologische Parameter auf, darunter z.B. die Herzrate (= Herzschläge pro Minute bzw. Puls) und die Hautleitfähigkeit (= wie stark schwitzt die Haut?). Diese Maße spiegeln den Erregungszustand des Körpers wider und sind ein Anzeichen für Angst. Die Logik hinter dem Test ist die, dass ein Mensch, wenn er verhört/befragt wird und dabei lügt, ein erhöhtes Erregungsniveau aufweist, weil er fürchtet, dass seine Lügen auffliegen.

Das Problem an diesem Test ist die nur sehr eingeschränkte Validität und die Ermangelung eines klaren Testwerts, ab dem man davon ausgehen soll, dass derjenige lügt. Der Test liefert immer wieder viele falsch-positive (Der Test sagt “Lüge”, der Verhörte lügt aber gar nicht) und falsch-negative Ergebnisse (Der Test sagt “Wahrheit”, der Verhörte lügt aber), weshalb er als Beweismittel vor Gericht (inzwischen!) nicht mehr zugelassen ist, nachdem es lange Zeit Gang und Gäbe war. Warum jemand in einer solchen Situation aufgeregt ist und Angst empfindet, kann etliche Ursache haben: z.B. die Angst davor, Angst zu zeigen, weil einem genau dies negativ ausgelegt wird, die Angst, allgemein ins Gefängnis zu kommen, die Angst, dass niemand einem glaubt, etc.

Da jedoch viele Menschen glauben, der Lügendetektortest liefere korrekte Aussagen, machte sich der US-amerikanische Psychologe Harold Sigall dies zunutze und entwickelte das so genannte Bogus-Pipeline-Paradigma. Hierbei handelt es sich um eine Methode zur wissenschaftlichen Erforschung von z.B. Einstellungen. Gerade wenn es um die Einstellung zu Randgruppen wie Migranten, Homosexuellen und Angehörige bestimmter Religionen geht, sagen viele Menschen nicht ehrlich, welche Einstellung sie dazu haben, weil sie wissen, dass ihre Meinung sozial nicht konform ist und daher verurteilt werden würde. Um an die wahren Einstellungen dieser Menschen heranzukommen, schloss Sigall sie an einen angeblichen Lügendetektor an und forderte sie auf, die Wahrheit zu sagen, da das Gerät eine Lüge ohnehin entdecken würde. Der Plan ging auf – und Sigall konnte zeigen, wie ehrlich Menschen sind, wenn sie glauben, dass sie nicht unentdeckt lügen können. Inzwischen ist das Bogus-Pipeline-Paradigma aber aufgrund der ethischen Einwände (Versuchspersonen werden aufgrund eines Tricks/Betrugs sensible Informationen entlockt) verboten.

Andere Verfahren zur Entdeckung von Lügen richten sich auf Verhaltensbeobachtungen und postulieren, dass Lügen z.B. mit nicht vorhandenem Blickkontakt, bestimmten minimalen und nicht bewusst steuerbaren Mimiken (also Gesichtsausdrücken) oder bestimmten Bewegungen (wie dem Kratzen an der Nase) einhergehe. Die Erforschung der Validität solcher Hinweise ist aber zum momentanen Augenblick noch sehr unausgereift. Im Vergleich zum Forschungszustand werden diese Methoden aber schon sehr häufig angewendet – vor allem im Kriminalbereich.

Noch neuer sind neurowissenschaftliche Verfahren zur Aufdeckung von Lügen. Mittels funktioneller Magnetresonanztomographie (umgangssprachlich auch als ” funktionaler Kernspin” bekannt, kurz fMRT) konnten bestimmte Gehirnareale identifiziert werden, die während des Lügens ihre Aktivität steigern. Hierin steckt natürlich ein großes Potenzial, und Justiz & Co. werden sicherlich bald Interesse anmelden. Es ist hierbei aber aus zwei Gründen Vorsicht geboten: Erstens, weil die fMRT-Technik fehleranfällig ist und falsch-positive wie falsch-negative Ergebnisse somit vorprogrammiert sind – denn zwischen den ursprünglichen Daten und den Gehirnbildern mit den hell aufleuchtenden Punkten, die gesteigerte Aktivität anzeigen, liegen unglaublich viele statistische Umrechnungs- und Mittelungsprozesse, bei denen eine Menge schief gehen kann. Zweitens, weil ein solches Vorgehen gegen ethische Richtlinien verstoßen kann: Darf es zulässig sein, einen Menschen zum Verhör einer vergleichbar unangenehmen Prozedur wie der MRT zu unterziehen? Insgesamt gibt es also nicht wirklich einen Grund zur Euphorie.

Graphologie – die Persönlichkeit aus der Handschrift lesen

Die Graphologie beschreibt die vermeintliche Wissenschaft, die sich damit beschäftigt, aus der Handschrift einer Person deren Persönlichkeit “herauszulesen”. Zurecht hat die Graphologie inzwischen den Status einer Pseudowissenschaft, weil sich dieses Verfahren als absolut nicht valide herausgestellt hat. Daher ist auch der häufig synonym verwendete Begriff “Schriftpsychologie” hierbei nicht korrekt.

Wie viele andere nachweislich unvalide Verfahren wird es aber tatsächlich in manch einem Unternehmen noch angewendet, wenn es um die Auswahl geeigneter Bewerber geht. Und das, obwohl die Wissenschaftler Schmidt und Hunter in einer Metaanalyse (die sehr viele Einzelstudien zusammenfasst) zeigen konnten, dass die mittlere Validität von Graphologie genau 0,02 (!) beträgt – was bedeutet, dass dieses Verfahren praktisch keinerlei Zusammenhang mit späterem Berufserfolg hat. Warum sich diese Methode so hartnäckig hält, liegt zum Großteil daran, dass ihre Verfechter unzählige Anekdoten von ehemaligen Bewerbern auf Lager haben, die die angebliche Validität belegen (anekdotische Evidenz). Diese ist aber, weil durch die eigene subjektive Wahrnehmung, das Ausblenden von Gegenbeispielen und die eigene Einstellung verzerrt, nicht einmal ansatzweise mit objektiven wissenschaftlichen Befunden zu vergleichen. Wenn also einmal ein Unternehmen einen handgeschriebenen Lebenslauf von Ihnen verlangt, würde ich Ihnen raten: Finger weg von dem Laden!

Warum diese Methode totaler Unsinn ist, wird schon deutlich, wenn man überlegt, wie leicht man seine eigene Schrift ändern und verstellen kann. Ich habe in meiner Schulzeit bestimmt zehn Mal die Handschrift einfach von einem auf den anderen Tag geändert, weil ich wiedermal was Neues ausprobieren wollte. Aber ok, ich war vielleicht auch extrem.

Physiognomie –  die Persönlichkeit aus dem Gesicht lesen

Die Physiognomie bezeichnet eigentlich die Lehre vom menschlichen Körperbau und ist Teil der Anatomie. An dieser Stelle meint es aber die ebenfalls pseudowissenschaftliche Methode, mit der bestimmte Menschen versuchen, aufgrund des Körperbaus Rückschlüsse über die Persönlichkeit einer Person zu ziehen. Insbesondere das Gesicht wird hierbei sehr häufig als Quelle herangezogen. Ausgeprägte Wangenknochen werden dann z.B. zum Indiz für Durchsetzungsvermögen, kleine Ohren gelten als Zeichen für Geiz und eine große Nase enthüllt, dass deren Besitzer sehr nachdenklich ist. Es existieren hierüber hunderte Bücher, meist geschrieben von selbst ernannten Experten, die einem sagen, welches Merkmal für welche Persönlichkeitseigenschaft steht. Genau so gibt es auch solche “Experten”, die man dann eines Tages bei Markus Lanz oder Johannes B. Kerner (ich weiß, der ist abgeschafft) sitzen sieht und die dort fröhlich ihre Pseudo-Weisheiten verbreiten. Natürlich wird dann im Gesicht des Moderators gelesen, wie es um dessen Persönlichkeit bestellt ist, und – oh Wunder – es stimmt! Natürlich nicht, weil man aus den äußeren Eigenschaften eines Gesichts die Persönlichkeit ablesen kann, sondern weil 1) grundsätzlich nur positive Eigenschaften genannt werden, die dem Betreffenden schmeicheln, der dann kaum widersprechen wird, 2) die “Gesichtsleserin” aus Vorinformationen und auf Basis des Verhaltens des Moderator schon viel über dessen Persönlichkeit weiß, was ihre Deutung maßgeblich beeinflusst, und 3) sie die gleiche Technik anwendet wie (gute) Kartenleger, Kristallkugelinterpreten und sonstige Menschen mit der vermeintlichen Gabe, in die Zukunft zu sehen: Sie nennt allgemeine Eigenschaften, die sowieso auf fast jeden zutreffen und denen somit kaum widersprochen wird, und sie tastet sich vorsichtig an ihre Deutungen heran, indem sie immer nur eine Behauptung aufstellt und dann auf die Rückmeldung des Betreffenden wartet. So vermeidet sie es, sich in eine völlig falsche Richtung zu bewegen. Das Ergebnis des ganzen ist natürlich das Staunen der gesamten Talkrunde, verblüffte Anerkennung – und ein typisches Stück anekdotische Evidenz (oben erklärt) für eine eigentlich komplett unvalide Methode.

Natürlich treffen manche Sachen tatsächlich zu, z.B. wenn über einen großen Mann mit breiten Schultern gesagt wird: “Er ist durchsetzungsfähig und selbstbewusst”. Es ist gut möglich, dass das stimmt. Aber die Kausalität ist eine andere: Er ist nicht groß und hat breite Schultern, weil er selbstbewusst und durchsetzungsstark ist (Das wäre die Deutung von Physiognomie-Experten). Er hat diese Eigenschaften sehr wahrscheinlich, weil sein Körperbau entsprechend ist! Genauso, wie es gut sein kann, dass jemand mit einem eher weniger hübschen Gesicht garstig im Umgang mit anderen ist: Die Eigenschaft ist vielmehr Folge der Beschaffenheit des  Gesichts und den damit hervorgerufen Reaktionen anderer als die Ursache dessen!

Während diese Art des Persönlichkeits-Lesens völliger Quatsch ist, weil unsere körperlichen Merkmale durch ganz andere Gene und Umwelteinflüsse bestimmt werden als unsere Persönlichkeit, sind die Schlussfolgerungen aufgrund von Mimik und Gestik kein Unsinn. Zwar lassen unsere Gesichtsausdrücke und unsere Gesten vielmehr Rückschlüsse auf momentane Emotionen zu als auf unsere Persönlichkeit, allerdings haben viele Studien gezeigt, dass Menschen das Gesicht als Quelle für sehr viele Informationen über eine Person benutzen (jetzt mal unabhängig davon, ob diese Informationen zutreffen). So ist z.B. gut untersucht, dass Menschen in Bruchteilen einer Sekunde (!) einen ersten Eindruck eines unbekannten Gesichts formen und entscheiden, ob sie dieses mögen oder nicht. Das heißt, es ist in der Tat so, dass wir aufgrund der unbewussten Verrechnung von zahlreichen Informationen sehr schnell ein Urteil über eine Person bilden. Dies hat aber nichts mit den Behauptungen von Physiognomie-Verfechtern zu tun, die oft viele Gesichtsmerkmale heranziehen, die Menschen bei der Fällung dieses Urteils gar nicht berücksichtigen, und die sehr spezifische Eigenschaften benennen, die unser Gehirn in so kurzer Zeit gar nicht bedenken kann. Insgesamt gilt also auch hier: Vorsicht vor Unsinn!

Damit wäre ein weiteres großes Anliegen von mir abgehakt – darüber aufzuklären, was echte psychologische Tests sind und was nicht. Und wenn ich auch nur ein bisschen dazu beigetragen habe, dass Sie als Leser nun ein bisschen besser bewerten können, was seriös und was Unsinn ist, habe ich mein Ziel schon voll erreicht.

© Christian Rupp 2013

Psychologische Tests – Teil 2: Diesen Tests können Sie trauen

Nachdem ich in Teil 1 beschrieben habe, welche Merkmale einen “echten” psychologischen Test ausmachen, stelle ich in diesem Teil verschiedene Gruppen “gängiger” psychologischer Testverfahren inklusive einiger prototypischer Vertreter vor.

Intelligenztests

Intelligenztests sind das Flaggschiff der Psychologie. Kein Thema wurde in der modernen Psychologie der letzten 100 Jahre intensiver beforscht als Intelligenz und ihre Messung, sodass heute eine Vielzahl sehr guter und auch präzise messender Intelligenztests vorliegen, die entweder Aussagen über die generelle Intelligenz liefern oder aber über spezifische Intelligenzfacetten (z.B. logisches Schlussfolgern und mentales Rotieren). Da ich das Thema “Intelligenz” noch ausführlich behandeln werde, wobei ich auch einige Intelligenztests vorstellen werde, belasse ich es an dieser Stelle dabei.

Persönlichkeitstests

Seriöse Persönlichkeitstests basieren auf Mehr-Faktoren-Modellen der Persönlichkeit, die durch das statistische Verfahren der Faktorenanalyse (siehe Exkurs unten) entstanden sind. Dasjenige Modell, über das in der Wissenschaft am meisten Einigkeit besteht, ist das Modell der “Big Five”. Es basiert auf etlichen faktorenanalytischen Studien und besteht aus fünf Kerneigenschaften, anhand derer Menschen sich hauptsächlich unterscheiden:

Extraversion

Ja, es heißt nicht Extroversion – das Gegenteil ist aber die Introversion; Beispielaussagen für Extraversion wäre z.B. “Ich bin gerne unter Menschen” und “Ich bringe Leben in eine Gesprächsrunde”.

Neurotizismus

Dies bedeutet emotionale Stabilität; ein sehr neurotischer Mensch ist eher emotional instabil.

Verträglichkeit

Kommt jemand gut mit anderen klar oder zieht er eher Konflikte an?

Offenheit für Erfahrungen

Ist jemand offen für Neues oder bleibt er lieber bei Altbekanntem?

Gewissenhaftigkeit

Habe ich im unten stehenden Exkurs erklärt.

Alle anderen Eigenschaften lassen sich gemäß diesem Modell den “Big Five” unterordnen. Gute Persönlichkeitstests (Achtung: Die Namen von psychologischen Persönlichkeitstests sind fast immer Abkürzungen!) sind z.B. der “NEO-PI-R”, der “NEO-FFI”, der “TIPI”, der “BFI” und der “FPI-R”. Der “BIP” erfasst, weil für die berufliche Bewerberauswahl entwickelt, berufsrelevante Persönlichkeitseigenschaften, und der “PSSI” erfasst das Kontinuum zwischen Persönlichkeitseigenschaft und Persönlichkeitsstörung.

Eine Sonderform der Persönlichkeitstests stellen die so genannten “Integrity”-Tests dar (z.B. der “IBES”). Diese erfassen, wie integer (= ehrlich, aufrichtig) ein Mensch ist – und tatsächlich können sie sehr gut unlauteres Verhalten am Arbeitsplatz (z.B. Diebstahl) vorhersagen, was verblüffend ist.

Persönlichkeitstests liegen meist in Fragebogenform vor, d.h. die Teilnehmer kreuzen an, wie sehr sie entsprechenden Aussagen (siehe oben) zustimmen. Es gibt aber auch Fremdbeurteilungsverfahren, d.h. Persönlichkeitstests, bei denen das Verhalten von Psychologen beobachtet und Rückschlüsse auf die Persönlichkeit desjenigen gezogen werden (was größte Sorgfalt und Vorsicht erfordert). Ebenso gibt es so genannte objektive Persönlichkeitstests wie den “OLMT”, die die Persönlichkeit indirekt erfassen, d.h. ohne dass der Teilnehmer weiß, dass es um seine Persönlichkeit geht. Beim OLMT wird z.B. die Leistungsmotivation des Probanden erfasst, in dem man ihn eine recht simple, aber auf Dauer anstrengende Aufgabe an einem Computerbildschirm lösen lässt, die inhaltlich nichts dem zu tun hat, was erfasst wird: Je länger der Proband “durchhält”, desto höher laut diesem Test die Leistungsmotivation. Auch hierbei wird also aus dem Verhalten auf die Persönlichkeit geschlossen. Fremdbeurteilungsverfahren und objektive Persönlichkeitstests bieten den Vorteil, dass sie nicht willentlich durch die Teilnehmer verfälscht werden können, was bei den Fragebögen natürlich möglich ist. Ihre Validität ist meist vorhanden, stellt jedoch teilweise ein Problem dar.

Auch unter diese Rubrik einzuordnen sind übrigens Tests zur Erfassung der Motive eines Menschen (wie der TAT, in der Reihe zu Motivation vorgestellt) sowie dessen Einstellungen gegenüber bestimmten Themen, Phänomenen und Menschengruppen (z.B. Migranten, Homosexualität, Esoterik, Übernatürliches…). Bei Letzterem wäre ich allerdings vorsichtig, den Begriff “Test” zu verwenden und würde eher für die Bezeichnung “spezifischer Fragebogen” plädieren, weil es sich ja immer um ein bestimmtes Thema dreht. Es gibt aber auch die Möglichkeit, Einstellungen, ebenso wie Motive, indirekt zu erfassen, d.h. ohne dass der Teilnehmer das Ergebnis verfälschen kann und ohne dass er weiß, dass es um seine Einstellungen geht. Ein bekanntes und recht valides Verfahren hierfür ist z.B. der IAT, der implizite Assoziationstest.

Die Validität von Persönlichkeitstests wird z.B. durch den Zusammenhang mit anderen Persönlichkeitstests oder mit bestimmten Verhaltensweisen, die zu der jeweiligen Eigenschaft passen, gesichert.

Exkurs “Faktorenanalyse”

Grob gesagt passiert bei der Faktorenanalyse Folgendes: Nachdem Probanden einen Fragebogen mit sehr vielen Aussagen (z.B. “Ich mag es, unter Leuten zu sein” / “Ich erledige alle meine Arbeiten gründlich”) beantwortet haben, indem sie mit Hilfe einer Skala (die z.B. von 1-7 reicht) angaben, wie sehr diese Aussage auf sie zutrifft, werden statistische Analysen angewendet, die ausspüren, welche Aussagen des Fragebogens stark zusammenhängen (korrelieren). Zwei Aussagen sind dann korreliert, wenn Personen dazu tendieren, sie gleich oder ähnlich zu beantworten. Meistens hängen mehr als zwei Fragen zusammen, und diese werden dann zu einem “Faktor” zusammengefasst. So gehören z.B. die Aussagen “Ich erledige alle meine Arbeiten gründlich” und “Ich hasse es, wenn Unordnung entsteht” zum Faktor “Gewissenhaftigkeit” – einem der fünf großen Persönlichkeitsfaktoren, in dem sich Personen unterscheiden. Die Faktorenanalyse ist aber auch die Basis der Intelligenzforschung: Hier bearbeiten Probanden verschiedenste Aufgaben anstelle von Aussagen, und es werden diejenigen Aufgaben zusammengefasst, die häufig zusammen gelöst werden. Da Menschen z.B. sehr häufig sowohl in Wortschatz- als auch in Analogieaufgaben gute Leistungen bringen, werden beide Aufgabenarten, vereinfacht gesagt, oft zu dem Faktor “sprachliche Intelligenz” zusammengefasst. Dass Leute, die gut in Wortschatzaufgaben sind, auch gute Leistungen in Rechenaufgaben bringen, ist derweil weniger häufig der Fall – sodass man hier von zwei verschiedenen Faktoren (z.B. “sprachliche Intelligenz” vs. “mathematische Intelligenz”) ausgeht. Mehr dazu in den Artikeln zum Thema “Intelligenz”.

Tests zur Erfassung von Aufmerksamkeit, Konzentration & Gedächtnis

Hierunter fallen sämtliche Tests, die kognitive Funktionen wie Wahrnehmung, Aufmerksamkeit, Gedächtnis und Konzentration erfassen. Der “VLMT” z.B. erfasst verbale Lern- und Merkfähigkeiten und ist in der Alzheimer – und Demenzdiagnostik wichtig. Die “TAP” ist eine Testbatterie, mit der die selektive Aufmerksamkeit, das Arbeitsgedächtnis und die Konzentrationsleistung überprüft werden. Auch der “d2” und der “FAIR” erfassen die Konzentrationsleistung, in dem sie den Teilnehmer vor die Aufgabe stellen, eine vergleichsweise einfache Aufgabe, die aber viel Konzentration erfordert, unter Zeitdruck zu bearbeiten, ohne Fehler zu machen. Ebenso gibt es Tests, die die Belastbarkeit einer Person unter Stress und die motorischen Fähigkeiten erfassen. In diese Gruppe von Tests fallen all die Tests, die Teil der Aufnahmeprüfung in Berufen sind, in denen mangelnde Konzentration etc. fatal sein können – bei Piloten, Fluglotsen, Zugführer, LKW-Fahrer, etc. Auch bei der MPU, der medizinisch-psychologischen Untersuchung, die z.B. auf Verkehrsteilnehmer wartet, die zu viele Punkte in Flensburg haben, kommen viele von diesen Tests zum Einsatz.

Fragebögen zu klinischen Symptomen

Auch hier sollte man mit dem Begriff “Test” vorsichtig sein und die Bezeichnung “Fragebogen” wählen. Klinische Fragebögen erfassen Symptome psychischer Störungen und liegen entweder als Selbstbeurteilungsvariante (der Patient kreuzt selbst an) oder als Fremdbeurteilungsvariante (ein_e Psychologe_in beurteilt das Verhalten und die Schilderungen des Teilnehmers und kreuzt an) vor. Es gibt Fragebögen, die Symptome mehrerer Störungsbilder gleichzeitig abfragen (z.B. die “SCL-90-R”) und Fragebögen, die Symptome nur jeweils einer Störung erfassen – hier ein paar Beispiele von qualitativ hochwertigen diagnostischen Fragebögen:

Depression

  • Selbstbeurteilung: “BDI”, “ADS” (hat nichts mit AD(H)S zu tun, sondern steht für “allgemeine Depressionsskala”)
  • Fremdbeurteilung: “MADRS”, “HAMD”

Angststörungen/Ängstlichkeit

  • Selbstbeurteilung: “STAI” und “ACQ”
  • Fremdbeurteilung: “HAMA”

Zwangsstörungen

  • Selbstbeurteilung: “HZI”

AD(H)S bei Erwachsenen

  • Selbstbeurteilung: “WURS-K” (für Symptome in der Kindheit), “ADHS-SB” (für Symptome im Erwachsenenalter)
  • Für AD(H)S bei Kindern stehen zahlreiche Fremdbeurteilungsverfahren vor, die auch von Eltern und Lehrern ausgefüllt werden können.

und viele mehr…

Der wichtige Grundsatz bei den klinischen Fragebögen lautet: Sie sind als zusätzliche Quelle von diagnostischen Informationen sinnvoll, aber eine Störungsdiagnose sollte niemals alleine auf dieser Basis vergeben werden! Deshalb sollte hier auch nicht von Tests die Rede sein – denn die liefern sehr viel eindeutigere und vor allem unumstößliche Ergebnisse.

Im dritten Teil stelle ich dann abschließend eine Reihe von Tests vor, die die in Teil 1 dargestellten Gütekriterien von psychologischen Tests kaum oder gar nicht erfüllen. Sie glauben gar nicht, auf wie viele so genannte “Tests” dies zutrifft…

© Christian Rupp 2013

Psychologische Tests – Teil 1: Woran erkennt man die echten unter ihnen?

Da auch hierüber in der Gesellschaft sehr weit verbreitete falsche Annahmen zu finden sind, fand ich es sehr wichtig, einmal darzustellen, was eigentlich einen “richtigen” psychologischen Test ausmacht . Deshalb geht es in diesem und in den zwei folgenden Artikeln darum, was psychologische Tests überhaupt sind und was Beispiele für gute und weniger gute Vertreter sind.

Ich möchte fast wetten, dass Sie, liebe_r Leser_in, schon einmal in Ihrem Leben an einem psychologischen Test oder einem, der behauptete, einer zu sein, teilgenommen haben. Tatsächlich trennt sich hier aber die Spreu vom Weizen – denn es gibt seriöse, “echte” psychologische Tests, die gültige Aussagen über eine Person zulassen, und “falsche”, die genau dies nicht erlauben. Ziel aller psychologischer Tests ist es, ein bestimmtes, “in der Person liegendes” und daher von außen nicht direkt beobachtbares Merkmal (Persönlichkeit, Intelligenz, Gedanken…) mehr oder weniger indirekt zu messen. Doch was unterscheidet nun die “echten” von den “falschen” Tests?

Merkmale von echten psychologischen Tests

Quantitative Daten

Ein guter psychologischer Test liefert, wenn auch auf Umwegen, immer Zahlen als Daten. Das bedeutet, selbst wenn die Antworten des Teilnehmers nicht direkt als Zahlen vorliegen (wie es z.B. in einem Fragebogen mit einer 7-stufigen Skala der Fall ist), muss der Test eine Möglichkeit bieten, wie der Testleiter den Antworten oder dem Verhalten eines Probanden Zahlen zuweisen (= das Verhalten quantifizieren) kann. Dieses System muss standardisiert sein (siehe “Objektivität”), und es ist die Grundlage für das Kriterium der Normierung.

Objektivität

Dieses Merkmal bedeutet, dass der Test, unabhängig von der durchführenden Person, immer gleich angewendet und ausgewertet und das Ergebnis immer gleich interpretiert wird. Durchführung, Auswertung und Interpretation sind fest vorgeschrieben. Das Ergebnis unterliegt somit keinen subjektiven Eindrücken, Deutungen oder Manipulationen – der gesamte Testablauf ist standardisiert.

Reliabilität

Dieser Begriff bedeutet Zuverlässigkeit. Im Klartext ist dieses Kriterium erfüllt, wenn der Test bei wiederholter Durchführung dasselbe oder annähernd dasselbe Ergebnis liefert. Wenn jedoch das gemessene Merkmal von Natur aus schwankt (z.B. Einstellungen), kann es passieren, dass dieses Kriterium keinen Sinn macht. Dann kann man höchstens schauen, ob das Merkmal innerhalb sehr kurzer Zeiträume stabil bleibt. Die Reliabiliät wird durch einen Wert zwischen 0 und 1 beschrieben, wobei 1 für maximale Zuverlässigkeit steht (der Testwert stimmt bei beiden Messungen exakt überein). In der Realität sind Werte zwischen 0,7 und 0,9 normal und ausreichend für die Praxis. Von diesem Wert hängt die Größe des so genannten “Konfidenzintervalls” ab. Dieses gibt, da ein psychologischer Test nie so präzise misst wie beispielsweise eine Waage, den Bereich an, in dem der tatsächliche Testwert mit 95%iger Wahrscheinlichkeit liegt. So könnte ein Intelligenztest z.B. einen IQ-Wert von 104 liefern, und das Konfidenzintervall könnte bei einer Reliabilität von 0,9 von 100 bis 108 reichen. Hierzwischen liegt dann sehr wahrscheinlich der “wahre” Wert der Person.

Streng genommen ist mit Reliabilität übrigens eigentlich nicht gemeint, dass zweimal hintereinander derselbe Wert rauskommt, denn auch wenn alle untersuchten Personen bei der zweiten Messung z.B. 5 Punkte dazugewonnen haben, ergibt das eine Reliabilität von 1. Es geht genau genommen nur um die Einhaltung der Rangfolge der Personen: Wird diese bei beiden Messungen eingehalten, ist der Test reliabel. Aber wie gesagt: Für das Alltagsverständnis reicht die obige Definition.

Normierung

Normierung bedeutet, dass der erreichte Testwert einer Person nie losgelöst betrachtet wird, sondern immer mit einer repräsentativen Normierungsstichprobe verglichen wird. Diese besteht aus Personen, die der getesteten Person bezüglich Alter und Geschlecht ähnlich sind. Dazu berechnet man den Abstand zwischen dem Testwert der Person und dem Mittelwert der Normierungsstichprobe. Ein Beispiel: Der neunjährige Theo erreicht in einem Intelligenztest eine Punktzahl von 144, insgesamt sind in dem Test 220 Punkt zu erreichen. Achtung – das ist der Rohwert, nicht der IQ-Wert. Der ergibt sich erst durch weitere Berechnungen, bei der Theos Punktzahl, die durchschnittliche Punktzahl in der Normierungsstichprobe der neunjährigen Jungen und die durchschnittliche Abweichung von dieser Durchschnittspunktzahl (die Standardabweichung) mit einbezogen werden. So erhält man IQ-Werte, die so standardisiert sind, dass der Mittelwert 100 beträgt und die Standardabweichung 15. Weil bei diesen Umrechnungsprozessen dividiert wird, spricht man vom Intelligenzquotienten. Da IQ-Werte daher keine festen, sondern relative Werte darstellen, ist unbedingt zu beachten, mit welcher Normierungsstichprobe jemand verglichen wird: So kann ein Gymnasiast beim Vergleich mit einer Stichprobe aus der breiten Normalbevölkerung einen IQ von 130 aufweisen (wäre demnach also “hochbegabt”), im Vergleich mit anderen Gymnasiasten wäre er hingegen nicht so weit über dem Mittel und hätte einen IQ von 115.

Validität

Dieses vierte Kriterium bedeutet “Gültigkeit”. Ein Test besitzt Validität bzw. ist valide, wenn er tatsächlich misst, was er zu messen vorgibt. Wenn es dabei um ja/nein-Entscheidungen geht (z.B. bei der Frage, ob jemand lügt oder nicht), kann man die Validität damit bestimmen, wie oft der Test eine korrekte Aussage liefert (d.h. jemand lügt, und der Test sagt auch, dass die Person lügt – oder die Person lügt nicht, und der Test sagt auch, dass die Person nicht lügt), und wie oft er daneben liegt (Die Person lügt nicht, aber der Test besagt, dass sie lügt – und andersrum).Wenn der Test jedoch ein Merkmal messen soll, welches nicht nur zwei Kategorien hat (z.B. Intelligenz), dann betrachtet man, wie der Testwert mit anderen Merkmalen zusammenhängt. Hierzu betrachtet man die Korrelation (abgekürzt durch den Buchstaben “r”), das heißt den linearen Zusammenhang von Testwert und einem anderen Wert. Auch die Korrelation variiert zwischen 0 und 1, während 1 für einen perfekten Zusammenhang zwischen zwei Merkmalen steht.

Das unten stehende Foto zeigt als Beispiel die (hypothetische, nicht realitätsgetreue) Korrelation zwischen der Abiturdurchschnittsnote und dem Ergebnis in einem Intelligenztest. Diese beträgt hier 0,5, was in Bezug auf Validität ein sehr hoher Wert ist. Wenn man die Validität eines Tests bestimmt, ist es wichtig, dass der Testwert einen eindeutigen Zusammenhang mit verwandten Merkmalen aufweist (bei Intelligenz wären dies z.B. Schulleistung oder die Leistung in anderen Intelligenztests). Dieser Zusammenhang muss und kann aber gar nicht perfekt ( = 1) sein, weil sämtliche Merkmale (wie Schulleistung) noch durch viele andere Faktoren bestimmt werden. Die Validität eines Tests bestimmt man dabei nie nur durch die Korrelation mit einem anderen Merkmal, sondern immer mit mehreren. Validitäten von 0,3 sind dabei schon als zufriedenstellend, welche über 0,5 bereits als sehr hoch einzustufen.

Hier habe ich einmal aufgemalt, was man sich unter einer Korrelation vorzustellen hat. Die grünen Kreuze stehen alle für jeweils eine Person, von der sowohl das Ergebnis aus einem Intelligenztest (in IQ-Werten, auf der x-Achse) und die Abiturdurchschnittsnote (auf der y-Achse) vorliegen. Diese “Wolke” von Datenpunkten (bzw. –kreuzen) zeigt einen klaren Trend von links unten nach rechts oben, der durch die rote Linie verdeutlicht wird. Das heißt, im Mittel gehen höhere IQ-Werte mit besseren Noten einher, aber natürlich gibt es auch Ausnahmen. Bei einer Korrelation von 1 lägen alle Datenpunkte auf der roten Linie – das würde bedeuten, dass Abinote und Intelligenz in einem perfekten Zusammenhang zueinander stehen und dass das eine linear (d.h. in Form einer Geraden wie der roten Linie) mit dem anderen ansteigt. Bei einem Zusammenhang von r = 0 wäre der gesamte Raum innerhalb des Graphen hingegen gleichmäßig mit Kreuzchen ausgefüllt, es wäre kein Trend in irgendeine Richtung und somit kein Zusammenhang der beiden Merkmale zu erkennen.
Auch die Reliabilität ist übrigens ein Korrelationswert. Hier würde man auf der x-Achse die Testwerte aus der ersten Durchführung abtragen und auf der y-Achse die der zweiten Durchführung. Hierbei würden die grünen Kreuzchen viel näher an der roten Linie liegen als hier im Foto, weil der Zusammenhang viel größer ist (meistens mindestens r = 0,7).

Fiktive Korrelation zwischen Intelligenzquotient und Abiturnote
Fiktive Korrelation zwischen Intelligenzquotient und Abiturnote

Die Validität ist dasjenige Kriterium, das hauptsächlich darüber entscheidet, ob es sich um einen “echten” psychologischen Test handelt oder nicht. Im zweiten und dritten Teil werde ich ein paar Beispiele für valide und nicht valide Tests geben.

© Christian Rupp 2013