Wirken alle Formen von Psychotherapie eigentlich gleich gut? Das Dodo-Bird-Verdict.

Zu dem folgenden Artikel wurde ich inspiriert durch einen am 3. Juni diesen Jahres in der taz veröffentlichten Zeitungsartikel zum Thema Psychotherapie. Eigentlich handelte er von den zahlreichen Hindernissen, die Patienten, die eine Psychotherapie in Anspruch nehmen möchten, in Deutschland überwinden müssen (aufgrund der chronischen Unterversorgung). Mitten im letzten Abschnitt fand sich aber dann eine These, die so, wie sie dort dargestellt wurde, definitiv nicht zutrifft. Diese lautete:

„Das am besten belegte Ergebnis der Psychotherapieforschung, auch als ‚Dodo Bird effect‘ bekannt, ist nämlich, dass alle Therapien gleich gut wirken. Eine Überbetonung der Methode ist sogar eher kontraproduktiv.“

Zunächst einmal: Der Name „Dodo-Bird-Effect“, in der Forschung meist als „Dodo-Bird-Verdict“ bezeichnet, ist, so seltsam er klingen mag, tatsächlich noch das Korrekteste in diesen ganzen zwei Sätzen. Der Begriff, der ursprünglich als Satire gemeint war, hat tatsächlich seinen Ursprung bei „Alice im Wunderland“, wo in einer Geschichte ein Dodo den Vorschlag macht, ein Rennen zu veranstalten, bei dem am Ende alle gewinnen, weil es kein Ziel gibt und auch die Zeit nicht gemessen wird. In der Psychotherapieforschung bezeichnet die Metapher derweil tatsächlich die These, dass alle Formen von Psychotherapie (eine Beschreibung der wichtigsten finden Sie hier) eigentlich gleich wirksam sind und es deshalb nicht auf spezifische Therapieinhalte (so genannte Interventionen) wie z.B. Konfrontationsübungen, kognitive Umstrukturierung (Veränderung von Denkmechanismen) oder ein Training sozialer Kompetenzen ankommt, sondern Psychotherapie ausschließlich über so genannte „unspezifische“ Faktoren wirkt. Zu letzteren zählen vor allem die Qualität der therapeutischen Beziehung und das Ausmaß, in dem der Therapeut dem Patienten gegenüber empathisch ist, eine akzeptierende Haltung einnimmt und ihn  allgemein unterstützt.

Belege dafür

Dass eine nicht unwesentliche Zahl von Therapieforschern und praktisch tätigen Therapeuten die Sichtweise des Dodo-Bird-Verdict teilt, kommt nicht von ungefähr. Vermeintliche Belege hierfür stammen aus den Untersuchungen von Luborsky und Kollegen aus den Jahren 1975 und 2002. In beiden Artikeln trägt die Forschergruppe eine große Zahl von Studien zusammen, die systematisch jeweils zwei Therapieformen miteinander verglichen haben, z.B. kognitive Verhaltenstherapie und tiefenpsychologisch fundierte Psychotherapie. In solchen Studien wird dann der Unterschied der Wirksamkeit meist in der Einheit „Cohen’s d“ (einem statistischen Effektstärkenmaß) angegeben. Zur Orientierung: Hierbei spiegeln d-Werte von 0,2 einen kleinen, solche von 0,5 einen mittleren und von 0,8 einen großen Unterschied wider. Schon 1975 konnte die Forschergruppe um Luborsky durch das Zusammentragen solcher Studien zeigen, dass bei den meisten dieser Studien nur sehr kleine und zudem statistisch nicht signifikante Unterschiede zwischen verschiedenen Therapieformen resultieren. 2002 berechnete dieselbe Forschergruppe dann im Rahmen einer Metaanalyse den mittleren Unterschied über sämtliche solche direkten Vergleichsstudien hinweg und kam auf einen Wert von 0,2. Die Schlussfolgerung war: Die Unterschiede zwischen verschiedenen Therapieformen sind so gering, dass sie zu vernachlässigen sind.

Kritik an den Luborsky-Studien

Allerdings kann man an sehr vielen Punkten Kritik an der Vorgehensweise dieser Forschergruppe üben. Die wesentlichsten Punkte seien hier kurz genannt:

  • Die Autoren differenzierten die Ergebnisse nicht nach der jeweiligen Störung, die behandelt wurde, sondern mittelten über alle Störungen hinweg.
  • Unterschiede innerhalb einer Therapieform (z.B. der tiefenpsychologisch fundierten Psychotherapie) wurden ignoriert.
  • Es wurden viele Studien eingeschlossen, die die Therapieformen nicht an klinisch kranken Probanden verglichen, sondern an gesunden Probanden mit leichten psychischen Auffälligkeiten (so genannte Analogstichproben) – dies mindert die Aussagekraft.
  • Die Autoren schlossen viele Studien mit kleinen Stichprobenumfängen ein, was es aus statistischen Gründen stark erschwert, etwaige Unterschiede zwischen den Therapieformen überhaupt signifikant nachweisen zu können.
  • Durch die Einschränkung auf Studien, die zwei Therapieformen direkt miteinander verglichen haben, bleiben viele wichtige Befunde aus randomisierten kontrollierten Studien unberücksichtigt.

Belege dagegen

Spezifische Interventionen wirken über unspezifische Wirkfaktoren hinaus

Die Psychotherapieforschung hat zwei wesentliche Befunde vorzuweisen (die aber nicht mit der im taz-Artikel aufgestellten Behauptung übereinstimmen): Erstens, dass die oben beschriebenen unspezifischen Wirkfaktoren (vor allem die Qualität des therapeutischen Arbeitsbündnisses bzw. der therapeutischen Beziehung sowie Empathie & Akzeptanz auf Seiten des Therapeuten) tatsächlich stark mit dem Erfolg der Therapie zusammenhängen. Der Effekt dieser Faktoren auf den Therapieerfolg liegt, statistisch ausgedrückt, immerhin bei einem d-Wert von 0,5 (mittlerer Effekt), wie sich aus einer Vielzahl von Studien ergeben hat. Vor allem sind dies randomisierte kontrollierte Studien mit einer Placebo-Kontrollgruppe, wo die Behandlung in der Placebo-Gruppe eben ausschließlich darin besteht, dass der Therapeut diese unspezifischen Wirkfaktoren umsetzt. Diese Placebo-Behandlung zeigt gegenüber Kontrollgruppen ohne jegliche Behandlung bereits gute Therapieeffekte, aber: Sie sind gleichzeitig meist der Experimentalgruppe, die die Behandlung mit der spezifischen Intervention erhält, unterlegen. Um das ganze mit Leben zu füllen, soll ein kleines Beispiel herhalten: So könnte man z.B. bei Angststörungen drei Therapiebedingungen vergleichen: Eine Gruppe erhält gar keine Behandlung, die zweite eine Placebo-Behandlung (empathischer, aktiv zuhörender Therapeut, Vermittlung von Informationen über Angst, allgemeine Unterstützung) und die dritte eine Konfrontationstherapie (spezifische Intervention zusätzlich zu den auch hier vorhandenen unspezifischen Faktoren). Der Vergleich mit der Gruppe ohne Behandlung ergibt den Effekt wieder in der Einheit „Cohen’s d“: Es ergibt sich z.B. ein Effekt von 0,5 für die Placebogruppe, aber einer von 1,2 für die Konfrontationsgruppe (was durchaus realistische Zahlen sind). Fazit hier wäre (und dies entspricht der Realität): Unspezifische Faktoren verbessern die Angst, aber spezifische Interventionen verbessern sie mehr.

Wenn man nicht nur direkte Vergleiche betrachtet…

Und wenn man eben solche Studienergebnisse mit betrachtet und sich nicht auf direkte Vergleichsstudien einengt, dann ergeben sich durchaus betachtliche Unterschiede zwischen Therapieformen. So konnte z.B. in einer Metaanalyse von Hoffman und Smits (2008) gezeigt werden, dass bei der posttraumatischen Belastungsstörung eine traumafokussierte Psychotherapie (ebenso wie Eye Movement Desensitisation and Reprocessing, kurz EMDR) einer nicht-traumafokussierten Psychotherapie, die auf die Konfrontation mit dem Trauma verzichtet, deutlich überlegen ist. Anders als in den Luborsky-Studien beruhte dieses Ergebnis derweil nicht auf dem gemittelten Unterschied zahlreicher direkter Vergleichsstudien, sondern auf einer großen Zahl von pro Therapieform zusammengetragenen einzelnen randomisierten kontrollierten Studien.

Auf die Störung kommt es an

Dieser Aspekt ist der wohl wichtigste und für die Praxis relevanteste. Ob Therapieformen gleich gut wirken oder nicht, hängt ganz maßgeblich davon ab, welche Störung wir betrachten. Dies konnte sehr eindrucksvoll von Tolin (2010) gezeigt werden, der interessanterweise die gleiche Methode wie die Gruppe um Luborsky verwendete, sich also nur auf direkte Vergleiche beschränkte, und zwar auf direkte Vergleiche jeweils zwischen kognitiver Verhaltenstherapie (KVT) und anderen Therapieformen. Gemittelt kommt Tolin auch auf einen gemittelten Unterschied von 0,2. Aber: Der Unterschied ist für verschiedene Störungen unterschiedlich hoch (auch wieder gemessen in d-Einheiten). Während die Art der Therapie z.B. bei Essstörungen und Substanzabhängigkeiten tatsächlich kaum eine Rolle spielt (d=0,15 bzw. 0), liegt der gemittelte Unterschied bei der Depression im mittleren Bereich von 0,2, während er bei Persönlichkeits- und Angststörungen deutlich höher ausfällt, nämlich bei 0,34 bzw. 0,43 liegt. Letzteres Ergebnis stützt den Befund aus Therapiestudien, dass bei Angststörungen generell Therapien mit Konfrontationselementen solchen ohne bezüglich der Wirksamkeit überlegen sind. Die Ergebnisse sind also insgesamt so zu verstehen, dass andere Therapieformen der KVT entweder ebenbürtig (d=0) oder unterlegen (d>0) sind.

Die Unterschiede zeigen sich in der langfristigen Wirkung

Ein weiteres Ergebnis der Metaanalyse von Tolin betrifft die Unterschiede in der langfristigen Wirkung. Der gemittelte Unterschied von 0,2 bezieht sich lediglich auf den Vergleich der Symptomverbesserung direkt im Anschluss an die Therapie („post-treatment„). Legt man hingegen die Messungen der Symptomschwere 6 bzw. 12 Monate nach Ende der Therapie zugrunde (so genannte follow-up-Messungen), so ergeben sich über alle Störungen hinweg gemittelte Unterschiede von 0,47 bzw. 0,34. Hieraus kann man den wichtigen Schluss ziehen, dass sich die Unterschiede in der Wirkung verschiedener Psychotherapieformen vor allem auf die nachhaltige Wirkung beziehen, wo gemäß der Metaanalyse von Tolin die KVT nachweislich besser abschneidet als andere Verfahren.

Spezifische Psychotherapie wirkt nicht bei jedem Problem gleich

Anhänger des Dodo-Bird-Verdicts führen, wie oben beschrieben, das Argument an, dass Psychotherapie alleinig über unspezifische Wirkfaktoren wirkt. Dass das nicht stimmt, belegen zwar bereits sämtliche randomisierten kontrollierten Studien mit einer Placebo-Kontrollgruppe (siehe oben), es spricht aber noch ein anderer konsistenter Befund dagegen: Nämlich der, dass eine Psychotherapie im intendierten Störungsbereich stärkere Effekte erzielt als in anderen. Konkret bedeutet dies, dass sich z.B. ein depressionsspezifisches Therapieelement stärker auf Depressivität als beispielsweise auf Angst auswirkt, was nicht so sein sollte, wenn laut Dodo-Bird-Anhängern jede Therapie gleich gut bei allem wirkt.

Fazit

Pauschal zu sagen, dass alle Therapieformen gleich wirken, ist gemäß der Befundlage nicht möglich. Es gibt unspezifische Wirkfaktoren, die nahezu bei jeder Therapieform gleich sind und die auch bereits einen nicht zu vernachlässigenden Effekt bewirken. Aber: Spezische Interventionen sind diesen bei vielen Störungen und vor allem bezüglich der Nachhaltigkeit der Wirkung überlegen, was erklärt, dass eben nicht alle Psychotherapieformen als gleich gut einzustufen sind. Und übrigens: Für den zweiten Teil der Aussage aus dem taz-Artikel („Eine Überbetonung der Methode ist sogar eher kontraproduktiv.„) liegen noch viel weniger Belege vor. Mit anderen Worten: Auch bei der taz ist man vor nachlässiger Rechercheleistung nicht sicher.

© Christian Rupp 2013

Psychologische Tests – Teil 2: Diesen Tests können Sie trauen

Nachdem ich in Teil 1 beschrieben habe, welche Merkmale einen „echten“ psychologischen Test ausmachen, stelle ich in diesem Teil verschiedene Gruppen „gängiger“ psychologischer Testverfahren inklusive einiger prototypischer Vertreter vor.

Intelligenztests

Intelligenztests sind das Flaggschiff der Psychologie. Kein Thema wurde in der modernen Psychologie der letzten 100 Jahre intensiver beforscht als Intelligenz und ihre Messung, sodass heute eine Vielzahl sehr guter und auch präzise messender Intelligenztests vorliegen, die entweder Aussagen über die generelle Intelligenz liefern oder aber über spezifische Intelligenzfacetten (z.B. logisches Schlussfolgern und mentales Rotieren). Da ich das Thema „Intelligenz“ noch ausführlich behandeln werde, wobei ich auch einige Intelligenztests vorstellen werde, belasse ich es an dieser Stelle dabei.

Persönlichkeitstests

Seriöse Persönlichkeitstests basieren auf Mehr-Faktoren-Modellen der Persönlichkeit, die durch das statistische Verfahren der Faktorenanalyse (siehe Exkurs unten) entstanden sind. Dasjenige Modell, über das in der Wissenschaft am meisten Einigkeit besteht, ist das Modell der „Big Five“. Es basiert auf etlichen faktorenanalytischen Studien und besteht aus fünf Kerneigenschaften, anhand derer Menschen sich hauptsächlich unterscheiden:

Extraversion

Ja, es heißt nicht Extroversion – das Gegenteil ist aber die Introversion; Beispielaussagen für Extraversion wäre z.B. „Ich bin gerne unter Menschen“ und „Ich bringe Leben in eine Gesprächsrunde“.

Neurotizismus

Dies bedeutet emotionale Stabilität; ein sehr neurotischer Mensch ist eher emotional instabil.

Verträglichkeit

Kommt jemand gut mit anderen klar oder zieht er eher Konflikte an?

Offenheit für Erfahrungen

Ist jemand offen für Neues oder bleibt er lieber bei Altbekanntem?

Gewissenhaftigkeit

Habe ich im unten stehenden Exkurs erklärt.

Alle anderen Eigenschaften lassen sich gemäß diesem Modell den „Big Five“ unterordnen. Gute Persönlichkeitstests (Achtung: Die Namen von psychologischen Persönlichkeitstests sind fast immer Abkürzungen!) sind z.B. der „NEO-PI-R“, der „NEO-FFI“, der „TIPI“, der „BFI“ und der „FPI-R“. Der „BIP“ erfasst, weil für die berufliche Bewerberauswahl entwickelt, berufsrelevante Persönlichkeitseigenschaften, und der „PSSI“ erfasst das Kontinuum zwischen Persönlichkeitseigenschaft und Persönlichkeitsstörung.

Eine Sonderform der Persönlichkeitstests stellen die so genannten „Integrity“-Tests dar (z.B. der „IBES“). Diese erfassen, wie integer (= ehrlich, aufrichtig) ein Mensch ist – und tatsächlich können sie sehr gut unlauteres Verhalten am Arbeitsplatz (z.B. Diebstahl) vorhersagen, was verblüffend ist.

Persönlichkeitstests liegen meist in Fragebogenform vor, d.h. die Teilnehmer kreuzen an, wie sehr sie entsprechenden Aussagen (siehe oben) zustimmen. Es gibt aber auch Fremdbeurteilungsverfahren, d.h. Persönlichkeitstests, bei denen das Verhalten von Psychologen beobachtet und Rückschlüsse auf die Persönlichkeit desjenigen gezogen werden (was größte Sorgfalt und Vorsicht erfordert). Ebenso gibt es so genannte objektive Persönlichkeitstests wie den „OLMT“, die die Persönlichkeit indirekt erfassen, d.h. ohne dass der Teilnehmer weiß, dass es um seine Persönlichkeit geht. Beim OLMT wird z.B. die Leistungsmotivation des Probanden erfasst, in dem man ihn eine recht simple, aber auf Dauer anstrengende Aufgabe an einem Computerbildschirm lösen lässt, die inhaltlich nichts dem zu tun hat, was erfasst wird: Je länger der Proband „durchhält“, desto höher laut diesem Test die Leistungsmotivation. Auch hierbei wird also aus dem Verhalten auf die Persönlichkeit geschlossen. Fremdbeurteilungsverfahren und objektive Persönlichkeitstests bieten den Vorteil, dass sie nicht willentlich durch die Teilnehmer verfälscht werden können, was bei den Fragebögen natürlich möglich ist. Ihre Validität ist meist vorhanden, stellt jedoch teilweise ein Problem dar.

Auch unter diese Rubrik einzuordnen sind übrigens Tests zur Erfassung der Motive eines Menschen (wie der TAT, in der Reihe zu Motivation vorgestellt) sowie dessen Einstellungen gegenüber bestimmten Themen, Phänomenen und Menschengruppen (z.B. Migranten, Homosexualität, Esoterik, Übernatürliches…). Bei Letzterem wäre ich allerdings vorsichtig, den Begriff „Test“ zu verwenden und würde eher für die Bezeichnung „spezifischer Fragebogen“ plädieren, weil es sich ja immer um ein bestimmtes Thema dreht. Es gibt aber auch die Möglichkeit, Einstellungen, ebenso wie Motive, indirekt zu erfassen, d.h. ohne dass der Teilnehmer das Ergebnis verfälschen kann und ohne dass er weiß, dass es um seine Einstellungen geht. Ein bekanntes und recht valides Verfahren hierfür ist z.B. der IAT, der implizite Assoziationstest.

Die Validität von Persönlichkeitstests wird z.B. durch den Zusammenhang mit anderen Persönlichkeitstests oder mit bestimmten Verhaltensweisen, die zu der jeweiligen Eigenschaft passen, gesichert.

Exkurs „Faktorenanalyse“

Grob gesagt passiert bei der Faktorenanalyse Folgendes: Nachdem Probanden einen Fragebogen mit sehr vielen Aussagen (z.B. „Ich mag es, unter Leuten zu sein“ / „Ich erledige alle meine Arbeiten gründlich“) beantwortet haben, indem sie mit Hilfe einer Skala (die z.B. von 1-7 reicht) angaben, wie sehr diese Aussage auf sie zutrifft, werden statistische Analysen angewendet, die ausspüren, welche Aussagen des Fragebogens stark zusammenhängen (korrelieren). Zwei Aussagen sind dann korreliert, wenn Personen dazu tendieren, sie gleich oder ähnlich zu beantworten. Meistens hängen mehr als zwei Fragen zusammen, und diese werden dann zu einem „Faktor“ zusammengefasst. So gehören z.B. die Aussagen „Ich erledige alle meine Arbeiten gründlich“ und „Ich hasse es, wenn Unordnung entsteht“ zum Faktor „Gewissenhaftigkeit“ – einem der fünf großen Persönlichkeitsfaktoren, in dem sich Personen unterscheiden. Die Faktorenanalyse ist aber auch die Basis der Intelligenzforschung: Hier bearbeiten Probanden verschiedenste Aufgaben anstelle von Aussagen, und es werden diejenigen Aufgaben zusammengefasst, die häufig zusammen gelöst werden. Da Menschen z.B. sehr häufig sowohl in Wortschatz- als auch in Analogieaufgaben gute Leistungen bringen, werden beide Aufgabenarten, vereinfacht gesagt, oft zu dem Faktor „sprachliche Intelligenz“ zusammengefasst. Dass Leute, die gut in Wortschatzaufgaben sind, auch gute Leistungen in Rechenaufgaben bringen, ist derweil weniger häufig der Fall – sodass man hier von zwei verschiedenen Faktoren (z.B. „sprachliche Intelligenz“ vs. „mathematische Intelligenz“) ausgeht. Mehr dazu in den Artikeln zum Thema „Intelligenz“.

Tests zur Erfassung von Aufmerksamkeit, Konzentration & Gedächtnis

Hierunter fallen sämtliche Tests, die kognitive Funktionen wie Wahrnehmung, Aufmerksamkeit, Gedächtnis und Konzentration erfassen. Der „VLMT“ z.B. erfasst verbale Lern- und Merkfähigkeiten und ist in der Alzheimer – und Demenzdiagnostik wichtig. Die „TAP“ ist eine Testbatterie, mit der die selektive Aufmerksamkeit, das Arbeitsgedächtnis und die Konzentrationsleistung überprüft werden. Auch der „d2“ und der „FAIR“ erfassen die Konzentrationsleistung, in dem sie den Teilnehmer vor die Aufgabe stellen, eine vergleichsweise einfache Aufgabe, die aber viel Konzentration erfordert, unter Zeitdruck zu bearbeiten, ohne Fehler zu machen. Ebenso gibt es Tests, die die Belastbarkeit einer Person unter Stress und die motorischen Fähigkeiten erfassen. In diese Gruppe von Tests fallen all die Tests, die Teil der Aufnahmeprüfung in Berufen sind, in denen mangelnde Konzentration etc. fatal sein können – bei Piloten, Fluglotsen, Zugführer, LKW-Fahrer, etc. Auch bei der MPU, der medizinisch-psychologischen Untersuchung, die z.B. auf Verkehrsteilnehmer wartet, die zu viele Punkte in Flensburg haben, kommen viele von diesen Tests zum Einsatz.

Fragebögen zu klinischen Symptomen

Auch hier sollte man mit dem Begriff „Test“ vorsichtig sein und die Bezeichnung „Fragebogen“ wählen. Klinische Fragebögen erfassen Symptome psychischer Störungen und liegen entweder als Selbstbeurteilungsvariante (der Patient kreuzt selbst an) oder als Fremdbeurteilungsvariante (ein_e Psychologe_in beurteilt das Verhalten und die Schilderungen des Teilnehmers und kreuzt an) vor. Es gibt Fragebögen, die Symptome mehrerer Störungsbilder gleichzeitig abfragen (z.B. die „SCL-90-R“) und Fragebögen, die Symptome nur jeweils einer Störung erfassen – hier ein paar Beispiele von qualitativ hochwertigen diagnostischen Fragebögen:

Depression

  • Selbstbeurteilung: „BDI“, „ADS“ (hat nichts mit AD(H)S zu tun, sondern steht für „allgemeine Depressionsskala“)
  • Fremdbeurteilung: „MADRS“, „HAMD“

Angststörungen/Ängstlichkeit

  • Selbstbeurteilung: „STAI“ und „ACQ“
  • Fremdbeurteilung: „HAMA“

Zwangsstörungen

  • Selbstbeurteilung: „HZI“

AD(H)S bei Erwachsenen

  • Selbstbeurteilung: „WURS-K“ (für Symptome in der Kindheit), „ADHS-SB“ (für Symptome im Erwachsenenalter)
  • Für AD(H)S bei Kindern stehen zahlreiche Fremdbeurteilungsverfahren vor, die auch von Eltern und Lehrern ausgefüllt werden können.

und viele mehr…

Der wichtige Grundsatz bei den klinischen Fragebögen lautet: Sie sind als zusätzliche Quelle von diagnostischen Informationen sinnvoll, aber eine Störungsdiagnose sollte niemals alleine auf dieser Basis vergeben werden! Deshalb sollte hier auch nicht von Tests die Rede sein – denn die liefern sehr viel eindeutigere und vor allem unumstößliche Ergebnisse.

Im dritten Teil stelle ich dann abschließend eine Reihe von Tests vor, die die in Teil 1 dargestellten Gütekriterien von psychologischen Tests kaum oder gar nicht erfüllen. Sie glauben gar nicht, auf wie viele so genannte „Tests“ dies zutrifft…

© Christian Rupp 2013