Wissenschaftliche Studien – Science 101

Immer wieder liest man irgendwo von irgendwelchen Studien, die etwas Bahnbrechendes herausgefunden haben, wie z. B., dass ein Glas Rotwein am Tag total gesund ist. Ein paar Monate später fällt einem dann eine weitere Studie auf, die zu dem Ergebnis kommt, dass ein Glas Rotwein am Tag total ungesund ist. Wie kann so etwas sein?
Anlass für diesen Post waren zwei Meldungen, die ich gestern und heute gesehen habe. Die eine stammte von der Tagesschau. Sie eröffnete mit der Frage „Warum wirken Placebos?“. Anschließend wurden darin einige Aussagen mit Möglichkeitsformulierung „…kann helfen…“ und andere ohne („Placebo Patienten brauchten keine Untersuchung mehr“). Die andere stammte von 1live. Sie begann mit den Worten „Eine Studie fordert…“. Solche leicht rezipierbaren, viel ge-like-te und geteilte Informationen sind in meinen Augen ein großes Problem, denn sie offenbaren ein fundamentales Missverständnis über die Wissenschaft, ihre Methode und über das, was man aus Studienergebnissen schlussfolgern kann.
Eine gute Studie ist üblicherweise so aufgebaut: Es gibt eine Versuchsgruppe und eine Kontrollgruppe. Man überprüft, ob die beiden Gruppen sich voneinander unterscheiden in Bezug auf einen bestimmten zu untersuchenden Faktor. Wenn man beispielsweise untersuchen will, ob Psychopharmaka wirken, nimmt man eine Gruppe von psychisch Kranken, und gibt ihnen Medikamente (Versuchsgruppe) und eine andere, der man keine Medikamente gibt (Kontrollgruppe). Wichtig ist, das die Gruppen sich möglichst in allen anderen Variablen ähneln. Der untersuchte Faktor sind also die Medikamente. Den Patienten gibt man zu Anfang einen Fragebogen darüber, wie sie sich fühlen (Baseline). Nach einer bestimmten Zeit X gibt man ihnen den wieder und guckt, ob es Unterschiede in der Entwicklung beider Gruppen gibt. Wenn diese Unterschiede größer sind, als der Zufall es erklären würde – um das zu ermitteln, benutzt man Methoden der Statistik – , spricht man von Signifikanz. Signifikanz heißt also erst mal nur, dass es einen Unterschied zwischen der Versuchsgruppe und der Kontrollgruppe gibt. Da die Gruppen sich in wesentlichen Aspekten ähneln, geht man davon aus, dass dieser Unterschied durch den Faktor (also im Beispiel die Medikamente) hervorgerufen wurde. An dieser Stelle kommt die Effektstärke ins Spiel: Dieser Wert sagt nämlich aus, zu welchem Teil die Veränderung (von vor der Medikamentennahme bis zum Zeitpunkt X) auf den Faktor (die Medikamente) zurückzuführen ist. Bei vielen Psychopharmaka ist es so, dass die Studienlage signifikante Ergebnisse liefert. Man kann also einen Unterschied zwischen medikamentös Behandelten und Unbehandelten feststellen. Jedoch ist die Effektstärke dieser Studien oft verschwindend gering. Das heißt, dass es medikamentös behandelten Patientin besser geht, aber nur ein Klitzekleines Bisschen besser.
Deswegen ist die Aussage von oben, dass Placebos „helfen können“ (Signifikanz) richtig. Sie lässt aber wichtige Informationen zum Kontext (Effektstärke) aus. Die Aussage, dass Placebo Patienten keine Untersuchung mehr brauchten, ist falsch. Sie klingt so, als würde das für alle Menschen gelten (Effektstärke). Außerdem fehlt hier auch Kontext: Brauchten sie nach eigenem Ermessen keine Untersuchung mehr? War diese ärztlich nicht indiziert? Mir ist klar, dass die Tagesschau den Sachverhalt vereinfachen will, um ihn zugänglicher zu machen und für eine breite Masse veröffentlichen zu können. Aber gerade solche Verallgemeinerungen und Ungenauigkeiten sind es, die zu Fehlinformationen führen. Denn Menschen merken sich eben meist nur diese einfachen Botschaften. Das ist in dem Rotweinbeispiel noch relativ harmlos, kann aber in anderen Bereichen schnell riskant werden.
Die wissenschaftliche Methode umfasst noch ein weiteres wichtiges Prinzip, nämlich das der gegenseitigen Überprüfung. Dazu werden sogenannte „peer reviews“ eingesetzt: Andere Forscher als die ursprünglichen gehen hin, lesen sich den Versuchsaufbau der ursprünglichen Studie durch und replizieren diese unter möglichst gleichen Bedingungen, um die Ergebnisse zu verifizieren. Dieses System hat gerade in der Sozialpsychologie zu einem kleinen Skandal geführt, da sich zahlreiche bekannte und vielzitierte Studienergebnisse gar nicht wiederholen ließen. So wirkt sich das Einnehmen einer selbstbewussten Pose nicht auf das Selbstbewusstsein aus, wer lacht, fühlt sich nicht glücklicher, Selbstbeherrschung ist keine begrenzte Ressource, wer Wörter hört, die mit Altern zu tun haben, läuft danach nicht langsamer über einen Flur, wenn wir an Geld erinnert werden, werden wir nicht egoistischer und Oxytocin führt nicht dazu, dass man mehr kuscheln will oder sozialer wird. Das Gegenteil von all diesen Aussagen wurde tausendfach zitiert, bis sich herausstellte, dass man es nicht replizieren konnte.
Wissenschaft verfolgt dabei auch kein Ziel. Eine Studie sollte immer ergebnisoffen angelegt sein. Oder würdet ihr einer Studie von Bayer glauben, dass Glyphosat ganz bestimmt nicht krebserregend ist? Oder würdet ihr die Leute, die den größten finanziellen Gewinn aus dem Studienergebnis ziehen würden, die Studie selbst ausführen lassen? Ja, würdet ihr, die Bertelsmann Stiftung, die maßgeblich an der Entwicklung von Hartz 4 beteiligt war, hat Studien über die Effekte von Hartz 4 selbst durchgeführt. Es reicht also nicht, eine Studie inhaltlich zu überprüfen, man muss sie auch in ihrem Kontext betrachten.
Deswegen würde eine gute Studie auch niemals irgendetwas „fordern“, so wie es in oben genanntem Beispiel von 1live der Fall ist. Entweder, die Studie kommt zu dem Schluss, dass es bspw. besser für die Verlangsamung der Erderwärmung wäre, weniger Diesel zu verbrennen, und jemand hat daraus im Nachhinein eine Forderung gedichtet. Oder die Autoren haben wirklich etwas gefordert, was eine politische Agenda suggeriert und die Studienergebnisse nicht glaubwürdiger macht als die von Bayer und Bertelsmann.
Achtet also gut darauf, was Studien eigentlich genau untersucht haben, ob es Versuchs- und Kontrollgruppe gab & wie diese ausgewählt wurde, was signifikante Unterschiede bedeuten und ob sich Aussagen oder Hinweise auf die Effektstärke finden. Und kann eine Studie überhaupt eine Aussage über Kausalität treffen (z. B. wenn es keine zwei Gruppen gibt), oder geht es nur um Korrelation, also das gleichzeitige Auftreten zweier Beobachtungen. Für das Rotweinbeispiel gilt leider: Alkohol ist wahrscheinlich nie gesund. Der Lichtblick: In geringen Mengen und ohne regelmäßigen Konsum ist er vermutlich auch nicht so schlimm.

Über das Thema der wissenschaftlichen Methode könnte man ganze Bücher schreiben. Ich habe hier versucht, in möglichst verständlicher und kompakter Form eine grobe Orientierung für das Bewerten von medialen Meldungen über Studienergebnisse zu geben.

Wissenschaftliche Studien – Science 101

Ein Gedanke zu „Wissenschaftliche Studien – Science 101“

Schreibe einen Kommentar Antwort abbrechen