randomisierte kontrollierte Studie – PRAXIS DR. CHRISTIAN RUPP

Wirken alle Formen von Psychotherapie eigentlich gleich gut? Das Dodo-Bird-Verdict.

Zu dem folgenden Artikel wurde ich inspiriert durch einen am 3. Juni diesen Jahres in der taz veröffentlichten Zeitungsartikel zum Thema Psychotherapie. Eigentlich handelte er von den zahlreichen Hindernissen, die Patienten, die eine Psychotherapie in Anspruch nehmen möchten, in Deutschland überwinden müssen (aufgrund der chronischen Unterversorgung). Mitten im letzten Abschnitt fand sich aber dann eine These, die so, wie sie dort dargestellt wurde, definitiv nicht zutrifft. Diese lautete:

„Das am besten belegte Ergebnis der Psychotherapieforschung, auch als ‚Dodo Bird effect‘ bekannt, ist nämlich, dass alle Therapien gleich gut wirken. Eine Überbetonung der Methode ist sogar eher kontraproduktiv.“

Zunächst einmal: Der Name „Dodo-Bird-Effect“, in der Forschung meist als „Dodo-Bird-Verdict“ bezeichnet, ist, so seltsam er klingen mag, tatsächlich noch das Korrekteste in diesen ganzen zwei Sätzen. Der Begriff, der ursprünglich als Satire gemeint war, hat tatsächlich seinen Ursprung bei „Alice im Wunderland“, wo in einer Geschichte ein Dodo den Vorschlag macht, ein Rennen zu veranstalten, bei dem am Ende alle gewinnen, weil es kein Ziel gibt und auch die Zeit nicht gemessen wird. In der Psychotherapieforschung bezeichnet die Metapher derweil tatsächlich die These, dass alle Formen von Psychotherapie (eine Beschreibung der wichtigsten finden Sie hier) eigentlich gleich wirksam sind und es deshalb nicht auf spezifische Therapieinhalte (so genannte Interventionen) wie z.B. Konfrontationsübungen, kognitive Umstrukturierung (Veränderung von Denkmechanismen) oder ein Training sozialer Kompetenzen ankommt, sondern Psychotherapie ausschließlich über so genannte „unspezifische“ Faktoren wirkt. Zu letzteren zählen vor allem die Qualität der therapeutischen Beziehung und das Ausmaß, in dem der Therapeut dem Patienten gegenüber empathisch ist, eine akzeptierende Haltung einnimmt und ihn allgemein unterstützt.

Belege dafür

Dass eine nicht unwesentliche Zahl von Therapieforschern und praktisch tätigen Therapeuten die Sichtweise des Dodo-Bird-Verdict teilt, kommt nicht von ungefähr. Vermeintliche Belege hierfür stammen aus den Untersuchungen von Luborsky und Kollegen aus den Jahren 1975 und 2002. In beiden Artikeln trägt die Forschergruppe eine große Zahl von Studien zusammen, die systematisch jeweils zwei Therapieformen miteinander verglichen haben, z.B. kognitive Verhaltenstherapie und tiefenpsychologisch fundierte Psychotherapie. In solchen Studien wird dann der Unterschied der Wirksamkeit meist in der Einheit „Cohen’s d“ (einem statistischen Effektstärkenmaß) angegeben. Zur Orientierung: Hierbei spiegeln d-Werte von 0,2 einen kleinen, solche von 0,5 einen mittleren und von 0,8 einen großen Unterschied wider. Schon 1975 konnte die Forschergruppe um Luborsky durch das Zusammentragen solcher Studien zeigen, dass bei den meisten dieser Studien nur sehr kleine und zudem statistisch nicht signifikante Unterschiede zwischen verschiedenen Therapieformen resultieren. 2002 berechnete dieselbe Forschergruppe dann im Rahmen einer Metaanalyse den mittleren Unterschied über sämtliche solche direkten Vergleichsstudien hinweg und kam auf einen Wert von 0,2. Die Schlussfolgerung war: Die Unterschiede zwischen verschiedenen Therapieformen sind so gering, dass sie zu vernachlässigen sind.

Kritik an den Luborsky-Studien

Allerdings kann man an sehr vielen Punkten Kritik an der Vorgehensweise dieser Forschergruppe üben. Die wesentlichsten Punkte seien hier kurz genannt:

Die Autoren differenzierten die Ergebnisse nicht nach der jeweiligen Störung, die behandelt wurde, sondern mittelten über alle Störungen hinweg.
Unterschiede innerhalb einer Therapieform (z.B. der tiefenpsychologisch fundierten Psychotherapie) wurden ignoriert.
Es wurden viele Studien eingeschlossen, die die Therapieformen nicht an klinisch kranken Probanden verglichen, sondern an gesunden Probanden mit leichten psychischen Auffälligkeiten (so genannte Analogstichproben) – dies mindert die Aussagekraft.
Die Autoren schlossen viele Studien mit kleinen Stichprobenumfängen ein, was es aus statistischen Gründen stark erschwert, etwaige Unterschiede zwischen den Therapieformen überhaupt signifikant nachweisen zu können.
Durch die Einschränkung auf Studien, die zwei Therapieformen direkt miteinander verglichen haben, bleiben viele wichtige Befunde aus randomisierten kontrollierten Studien unberücksichtigt.

Belege dagegen

Spezifische Interventionen wirken über unspezifische Wirkfaktoren hinaus

Die Psychotherapieforschung hat zwei wesentliche Befunde vorzuweisen (die aber nicht mit der im taz-Artikel aufgestellten Behauptung übereinstimmen): Erstens, dass die oben beschriebenen unspezifischen Wirkfaktoren (vor allem die Qualität des therapeutischen Arbeitsbündnisses bzw. der therapeutischen Beziehung sowie Empathie & Akzeptanz auf Seiten des Therapeuten) tatsächlich stark mit dem Erfolg der Therapie zusammenhängen. Der Effekt dieser Faktoren auf den Therapieerfolg liegt, statistisch ausgedrückt, immerhin bei einem d-Wert von 0,5 (mittlerer Effekt), wie sich aus einer Vielzahl von Studien ergeben hat. Vor allem sind dies randomisierte kontrollierte Studien mit einer Placebo-Kontrollgruppe, wo die Behandlung in der Placebo-Gruppe eben ausschließlich darin besteht, dass der Therapeut diese unspezifischen Wirkfaktoren umsetzt. Diese Placebo-Behandlung zeigt gegenüber Kontrollgruppen ohne jegliche Behandlung bereits gute Therapieeffekte, aber: Sie sind gleichzeitig meist der Experimentalgruppe, die die Behandlung mit der spezifischen Intervention erhält, unterlegen. Um das ganze mit Leben zu füllen, soll ein kleines Beispiel herhalten: So könnte man z.B. bei Angststörungen drei Therapiebedingungen vergleichen: Eine Gruppe erhält gar keine Behandlung, die zweite eine Placebo-Behandlung (empathischer, aktiv zuhörender Therapeut, Vermittlung von Informationen über Angst, allgemeine Unterstützung) und die dritte eine Konfrontationstherapie (spezifische Intervention zusätzlich zu den auch hier vorhandenen unspezifischen Faktoren). Der Vergleich mit der Gruppe ohne Behandlung ergibt den Effekt wieder in der Einheit „Cohen’s d“: Es ergibt sich z.B. ein Effekt von 0,5 für die Placebogruppe, aber einer von 1,2 für die Konfrontationsgruppe (was durchaus realistische Zahlen sind). Fazit hier wäre (und dies entspricht der Realität): Unspezifische Faktoren verbessern die Angst, aber spezifische Interventionen verbessern sie mehr.

Wenn man nicht nur direkte Vergleiche betrachtet…

Und wenn man eben solche Studienergebnisse mit betrachtet und sich nicht auf direkte Vergleichsstudien einengt, dann ergeben sich durchaus betachtliche Unterschiede zwischen Therapieformen. So konnte z.B. in einer Metaanalyse von Hoffman und Smits (2008) gezeigt werden, dass bei der posttraumatischen Belastungsstörung eine traumafokussierte Psychotherapie (ebenso wie Eye Movement Desensitisation and Reprocessing, kurz EMDR) einer nicht-traumafokussierten Psychotherapie, die auf die Konfrontation mit dem Trauma verzichtet, deutlich überlegen ist. Anders als in den Luborsky-Studien beruhte dieses Ergebnis derweil nicht auf dem gemittelten Unterschied zahlreicher direkter Vergleichsstudien, sondern auf einer großen Zahl von pro Therapieform zusammengetragenen einzelnen randomisierten kontrollierten Studien.

Auf die Störung kommt es an

Dieser Aspekt ist der wohl wichtigste und für die Praxis relevanteste. Ob Therapieformen gleich gut wirken oder nicht, hängt ganz maßgeblich davon ab, welche Störung wir betrachten. Dies konnte sehr eindrucksvoll von Tolin (2010) gezeigt werden, der interessanterweise die gleiche Methode wie die Gruppe um Luborsky verwendete, sich also nur auf direkte Vergleiche beschränkte, und zwar auf direkte Vergleiche jeweils zwischen kognitiver Verhaltenstherapie (KVT) und anderen Therapieformen. Gemittelt kommt Tolin auch auf einen gemittelten Unterschied von 0,2. Aber: Der Unterschied ist für verschiedene Störungen unterschiedlich hoch (auch wieder gemessen in d-Einheiten). Während die Art der Therapie z.B. bei Essstörungen und Substanzabhängigkeiten tatsächlich kaum eine Rolle spielt (d=0,15 bzw. 0), liegt der gemittelte Unterschied bei der Depression im mittleren Bereich von 0,2, während er bei Persönlichkeits- und Angststörungen deutlich höher ausfällt, nämlich bei 0,34 bzw. 0,43 liegt. Letzteres Ergebnis stützt den Befund aus Therapiestudien, dass bei Angststörungen generell Therapien mit Konfrontationselementen solchen ohne bezüglich der Wirksamkeit überlegen sind. Die Ergebnisse sind also insgesamt so zu verstehen, dass andere Therapieformen der KVT entweder ebenbürtig (d=0) oder unterlegen (d>0) sind.

Die Unterschiede zeigen sich in der langfristigen Wirkung

Ein weiteres Ergebnis der Metaanalyse von Tolin betrifft die Unterschiede in der langfristigen Wirkung. Der gemittelte Unterschied von 0,2 bezieht sich lediglich auf den Vergleich der Symptomverbesserung direkt im Anschluss an die Therapie („post-treatment„). Legt man hingegen die Messungen der Symptomschwere 6 bzw. 12 Monate nach Ende der Therapie zugrunde (so genannte follow-up-Messungen), so ergeben sich über alle Störungen hinweg gemittelte Unterschiede von 0,47 bzw. 0,34. Hieraus kann man den wichtigen Schluss ziehen, dass sich die Unterschiede in der Wirkung verschiedener Psychotherapieformen vor allem auf die nachhaltige Wirkung beziehen, wo gemäß der Metaanalyse von Tolin die KVT nachweislich besser abschneidet als andere Verfahren.

Spezifische Psychotherapie wirkt nicht bei jedem Problem gleich

Anhänger des Dodo-Bird-Verdicts führen, wie oben beschrieben, das Argument an, dass Psychotherapie alleinig über unspezifische Wirkfaktoren wirkt. Dass das nicht stimmt, belegen zwar bereits sämtliche randomisierten kontrollierten Studien mit einer Placebo-Kontrollgruppe (siehe oben), es spricht aber noch ein anderer konsistenter Befund dagegen: Nämlich der, dass eine Psychotherapie im intendierten Störungsbereich stärkere Effekte erzielt als in anderen. Konkret bedeutet dies, dass sich z.B. ein depressionsspezifisches Therapieelement stärker auf Depressivität als beispielsweise auf Angst auswirkt, was nicht so sein sollte, wenn laut Dodo-Bird-Anhängern jede Therapie gleich gut bei allem wirkt.

Fazit

Pauschal zu sagen, dass alle Therapieformen gleich wirken, ist gemäß der Befundlage nicht möglich. Es gibt unspezifische Wirkfaktoren, die nahezu bei jeder Therapieform gleich sind und die auch bereits einen nicht zu vernachlässigenden Effekt bewirken. Aber: Spezische Interventionen sind diesen bei vielen Störungen und vor allem bezüglich der Nachhaltigkeit der Wirkung überlegen, was erklärt, dass eben nicht alle Psychotherapieformen als gleich gut einzustufen sind. Und übrigens: Für den zweiten Teil der Aussage aus dem taz-Artikel („Eine Überbetonung der Methode ist sogar eher kontraproduktiv.„) liegen noch viel weniger Belege vor. Mit anderen Worten: Auch bei der taz ist man vor nachlässiger Rechercheleistung nicht sicher.

Wahre Wirksamkeit oder nur Placeboeffekt? Wie die Wissenschaft dieser Frage auf den Grund geht.

Wie wird eigentlich untersucht, ob eine Heilmethode, sei es ein Medikament, Psychotherapie oder Akupunktur, wirksam ist? Im Idealfall werden hierzu so genannte so genannte randomisierte kontrollierte Studien durchgeführt.

Dabei handelt es sich um ein klassisches und wissenschaftlich sehr hochwertiges Design (so bezeichnet man im Allgemeinen den Aufbau solcher Studien) von klinischen Studien in der Medizin und Psychologie, welches ziemlich eindeutige Schlussfolgerungen bezüglich der Wirksamkeit von Heilmethoden erlaubt, wenn es denn wirklich objektiv durchgeführt wird (was unter Umständen nicht gegeben ist, wenn z.B. ein Pharmaunternehmen den Auftrag gibt und die erwünschten Ergebnisse schon vorher feststehen).

Sie ist idealerweise folgendermaßen aufgebaut: Eine Gruppe von Patienten, die die zu testende Behandlung (Medikament oder genau vom Ablauf und Inhalt her festgelegte Psychotherapie) erhält, wird vor und nach der Behandlung mit einer zweiten Gruppe von Patienten verglichen, die mit der ersten Gruppe hinsichtich wichtiger Variablen (wie vor allem der Diagnose, z.B. Depression) übereinstimmt, aber die betreffende Behandlung nicht erhält. Um aber am Ende wirklich den Schluss ziehen zu können, dass eine etwaige Verbesserung in der ersten Gruppe wirklich auf die Behandlung zurückzuführen ist, müssen einige wichtige Aspekte bei der Durchführung beachtet (bzw. kontrolliert) werden, welche im Folgenden vorgestellt werden sollen:

Randomisierung

Die (natürlich freiwillig) teilnehmenden Patienten werden per Zufall einer der Gruppen jeweils gleicher Größe zugewiesen, damit vorab bestehende systematische Unterschiede zwischen den Gruppen, die die Ergebnisse beeinflussen könnten, ausgeschlossen werden können. So ist es z.B. wichtig, dass die Patienten sich nicht aussuchen dürfen, in welche Gruppe sie lieber möchten (z.B. wenn medikamentöse mit Psychotherapie verglichen wird), da man aus wissenschaftlichen Studien weiß, dass alleine die Überzeugung, durch das jeweilige Mittel geheilt zu werden, zu eben dieser beitragen kann. Das ist natürlich schön für den Patienten – wissenschaftlich gesehen ist es aber ein Hinderniss, weil man am Ende nicht wüsste, ob die Wirkung von Medikament XY nur auf eben diese positive Wirkungsüberzeugung zurückzuführen ist. Idealerweise vergleicht man nicht nur zwei Gruppen miteinander, sondern drei, und zwar die folgenden:

Experimentalgruppe

Diese Gruppe von Patienten erhält die Behandlung, deren Wirksamkeit überprüft werden soll.

Kontrollgruppe ohne Behandlung

Diese Gruppe erhält keine Behandlung. Ihre Funktion besteht darin, ausschließen, dass die vermeintliche Wirkung nicht daher rührt, dass die Beschwerden über die Zeit auch von selbst verschwinden. Ihr Nachteil ist der, dass eine Placebowirkung der Behandlung nicht ausgeschlossen werden kann. Daher gibt es noch (entweder alternativ hierzu oder zusätzlich) die:

Placebo-Kontrollgruppe

Diese Gruppe erhält eine Placebo-Behandlung, bei Medikamenten z.B. eine Traubenzuckertablette, die natürlich genau so aussieht wie das echte Präparat. Bei Psychotherapie ist das natürlich schwieriger umzusetzen, aber nicht unmöglich. So bestünde, wenn eine neue spezifische Therapietechnik (z.B. eine bestimmte Form von Exposition bei Angststörungen) getestet werden soll, z.B. die Placebo-Behandlung in einer unspezifischen Therapieform (empathischer, verständnisvoller Therapeut, der aber ansonsten nichts tut). An dieser Stelle sei angemerkt, dass man, wie immer beim Placebo-Effekt, hierbei natürlich eine Wirkung (im Sinne einer Symptomverbesserung) erwartet, aber eben keine so große wie in der Experimentalbedingung. Die Funktion der Placebo-Kontrollgruppe ist es also, ausschließen, dass die vermeintliche Wirkung einer Behandlung darauf zurückzuführen ist, dass der Patient an die Wirkung glaubt bzw. eine Wirkung erwartet. Denn dass dieser Effekt in nicht unbedeutendem Ausmaß besteht, weiß man schon seit Langem. Ganz ausschließen kann man diesen Effekt jedoch nicht, da der Patient meistens mitbekommt, in welcher Bedingung er sich befindet. Lösen kann man dies nur durch eine „doppelte Verblindung“, die weiter unten erklärt wird.

Vortest und Nachtest

Das Ausmaß der Beschwerden wird vor und nach der Behandlung mit dafür geeigneten, standardisierten (Diagnose-)instrumenten gemessen. Idealerweise geschieht dies durch Personen, die den Patienten nicht kennen und auch nicht wissen, in welcher der zwei (oder drei) verschiedenen Gruppen er sich befindet. Man sagt auch, diese Person sei diesbezüglich „blind“ oder „verblindet“. Dies hat den Sinn, dass die bewertende Person somit bei der Einschätzung der Symptomatik nicht voreingenommen sein kann (in dem Sinne: „Der ist in der Experimentalgruppe, dem sollte es besser gehen“).

„Doppelblindheit“

…meint die „Blindheit“ der Versuchsleiter und der Patienten. Das bedeutet, dass weder Patient noch Versuchsleiter weiß, in welcher der drei Gruppen der Patient sich befindet. Der Patient nicht, damit Verbesserungen der Beschwerden nicht auf seine Erwartungen zurückzuführen sind, der Versuchsleiter nicht, weil er sonst voreingenommen beim Bewerten der Verbesserung im Nachtest sein kann oder durch sein voreingenommenes Verhalten falsche Antworten des Patienten auslösen kann (der so genannte Rosenthal-Effekt). Eine Verblindung des Versuchsleiters (der dann aber nicht mit dem durchführenden Therapeuten übereinstimmen darf) ist bei solchen Studien meistens gegeben, eine Verblindung des Patienten ist bei Psychotherapiestudien im Gegensatz zu Medikamentenstudien meist nicht durchführbar, weil der Patient schnell erkennen kann, ob er sich in der Experimental- oder der Kontrollgruppe befindet (insbesondere, wenn die Kontrollgruppe gar keine Behandlung erhält).

Wenn all diese Kriterien erfüllt sind und nur in der Experimentalgruppe eine signifikante (d.h. statistisch nicht durch Zufall erklärende) Verbesserung auftritt, kann die Wirkung mit sehr hoher Wahrscheinlichkeit auf die eingesetzte Behandlung zurückgeführt werden, und eben nicht auf Placeboeffekte oder eine Von-selbst-Verbesserung (auf Fachchinesisch: „Spontanremission“).

„Randomised Controlled Trials“

Diese Form von Studie wird nicht nur einmal durchgeführt, sondern direkt an mehreren Stichproben (d.h. Patientengruppen), daher die Bezeichnung „Randomised Controlled Trials“, kurz „RCT“, bzw. auf Deutsch „Randomisierte Kontrollierte Studie“. Auf je mehr Personen sich eine solche Wirksamkeitsstudie bezieht, umso höher die Aussagekraft. Weil es ethisch natürlich heikel ist, dass dieses Studiendesign Patienten in der Kontrollgruppe benachteiligt, wird dieses Problem übrigens so gehandhabt, dass jene Patienten im Anschluss an die Studienphase das Angebot erhalten, dieselbe (wahrscheinlich wirksamere) Behandlung wie die Experimentalgruppenpatienten zu in Anspruch zu nehmen.

Was ist gegen den Placeboeffekt einzuwenden?

Mit der beschriebenen Sorte von Studien konnte z.B. vielfach gezeigt werden, dass manche alternativen Heilmethoden wie Akupunktur oder „Geistheilung“ (wenn überhaupt) nur einen Placeboeffekt hervorrufen. Studien, die scheinbar deren Wirksamkeit belegen, erfüllen nicht die oben genannten Kriterien und sind somit aus wissenschaftlicher Sicht nicht zu Wirksamkeitsschlussfolgerungen geeignet, weil sie keine Vorkehrungen zum Ausschluss alternativer Erklärungen für eine etwaige Verbesserung der Beschwerden getroffen haben. Dem gegenüber sehen zahlreiche Formen der Psychotherapie (vor allem die kognitive Verhaltenstherapie, weniger die klassische Psychoanalyse), die eine „echte“, über den Placeboeffekt hinausgehende Wirkung aufweisen und hinsichtlich des Verbesserungseffektes absolut mit medizinischen Eingriffen mithalten können oder diese sogar übertrumpfen.

Auch wenn ich diese Form von Forschung als sehr wichtig erachte, um die Qualität in unserem Gesundheitswesen zu gewährleisten, bleibt am Ende die Frage, ob es nicht eigentlich egal ist, ob eine Methode durch sich selbst oder durch den Glauben an sie (Placeboeffekt) wirkt. Denn was die Psychologie auch seit Langem weiß: Glauben kann Berge versetzen. So konnte sogar z.B. in Studien mit bildgebenden Verfahren (fMRT) gezeigt werden, dass eine Placebopille im Gehirn die gleichen schmerzreduzierenden Prozesse auslöst wie eine echte Schmerztablette. Und dass manch eine Kopfschmerztablette viel schneller wirkt als es rein physiologisch möglich ist, kennen wahrscheinlich die meisten. Die Gefahr des Placeboeffekts liegt meiner Meinung nach woanders: Er öffnet auch den Weg für Betrüger und Quaksalber jeglicher Art, die mit der Gutgläubigkeit der Menschen ihr Geld verdienen. Und deshalb ist es in meinen Augen wirklich ein Segen, dass man derartige Behandlungen auf diese Weise ganz genau unter die Lupe nehmen kann.