Forschung: Wenn die Studien-Nelken welken

18. November 2014
Teilen

Jeder Arzt kennt das „Single Study Syndrome“. Eine Einzelstudie mit unerwarteten Ergebnissen macht große Schlagzeilen, bis die nächste Publikation die Ergebnisse widerlegt. Doch auch wer sich auf systematische Übersichten konzentriert, kann in die Falle tappen.

Virginia Hughes, Bloggerin beim National Geographic Magazine, hat sich die Mühe gemacht, aus dem Archiv der New York Times der letzten zehn Jahre Artikel mit den Neuigkeiten zu Resveratrol herauszusuchen, dem angeblich lebensverlängernden Stoff im Rotwein. Regelmäßig berichtete das Blatt über sensationelle Neuigkeiten aus der dazugehörigen Forschung: 2003 über den Gewinn an Lebenszeit bei Rotweintrinkern, den Zweifeln daran im Jahr 2011, möglichen Schwindeleien bei den Experimenten im Jahr 2012, die die ganze Geschichte in Frage stellten, 2013, dass doch etwas Wahres daran sei. Vor einigen Monaten erschien dann die Meldung, dass Resveratrol im Wein keinerlei gesundheitsfördernde Wirkung habe. Soll man solche Berichte dann überhaupt noch ernst nehmen, auch wenn sie von den Wissenschafts-Profis einer renommierten, amerikanischen Zeitung stammen?

Einfache Wahrheiten statt komplexer Zusammenhänge

Per Twitter forderte Harvard-Psychologe Steven Pinker im Sommer seine journalistischen Leser auf: „Hört auf, über Einzelstudien zu berichten, ganz gleich wie sexy sie sind, konzentriert Euch auf Metastudien und Reviews.“ Wenn ein „Durchbruch“ den nächsten jagt und der übernächste die ganzen Erkenntnisse des vorherigen wieder auf den Kopf stellt, sprechen Wissenschaftsjournalisten inzwischen vom „Single-Study-Syndrome“: Manchmal Resultat aufwändiger PR-Arbeit für ein Institut oder eine Universität, manchmal auch Folge einer öffentlichen Aufmerksamkeit für das „heiße“ Thema. Einfache Wahrheiten, so argumentieren viele Journalisten, seien das, was der Rezipient hören, sehen oder lesen möchte, für komplizierte Zusammenhänge, Unsicherheiten oder sich widersprechende Wissenschaftler sei dabei kein Platz – ganz besonders in der Medizin.

Die Folgen einer solchen Jagd nach einzelnen Forschungsergebnissen publizierte eine französisch-amerikanische Arbeitsgruppe vor zwei Jahren in der Fachzeitschrift „PLoS One“. Sie pickte sich die zehn meistzitierten Wissenschaftspublikationen über ADHS aus den 90er Jahren heraus und analysierte, was aus den entsprechenden Ergebnissen geworden war. Diese „Top 10“ fanden sich rund viermal so oft in der öffentlichen Presse wie 67 verwandte wissenschaftliche Artikel über das Thema. Was die Forscher aber in diesen zehn „wichtigsten“ berichteten, erwies sich in sechs Fällen im Nachhinein als falsch oder zumindest übertrieben. Das aber blieb fast immer der Öffentlichkeit verborgen, nur einer vor 223 Zeitungsartikeln berichtete über die spätere Korrektur der aufgestellten These.

Unreproduzierbare Resultate

Besonders die Sozialpsychologie hatte sich in den letzten Jahren den zweifelhaften Ruf geholt, gerne Ergebnisse zu publizieren, die sich von anderen Forschern nicht bestätigen ließen. Typisches Beispiel war etwa ein Artikel von Simone Schnall von der Universität Plymouth aus dem Jahr 2008, der das Händewaschen in Zusammenhang mit Moral-Urteilen über andere Menschen brachte. Vergebliche Versuche, den Befund durch entsprechende Wiederholung der Experimente zu bestätigen, brachten Schnall den Ruf einer zweifelhaften Wissenschaftlerin ein und die Psychologin fühlte sich laut „Science“ wie eine „kriminelle Tatverdächtige“, während die erfolglosen Replikatoren als „Aufdecker“ galten, obwohl sie vor der Publikation noch nicht einmal mit Schnall gesprochen hatten.

Die Gründe dafür, dass sich Studien nicht replizieren lassen, können aber auch ganz andere sein. Dem holländischen Sozialpsychologen Diederik Stapel wurde nachgewiesen, dass er mehr als 50 Studien entweder manipuliert oder gar frei erfunden hatte. Dass das „Zurechtbiegen“ von Daten kein Einzelfall ist, zeigen Umfragen bei Psychologen. Rund ein Fünftel von ihnen gab zu, Zahlen in Richtung des gewünschten Ergebnisses gerundet oder unpassende Daten einfach ignoriert zu haben. Und selbst die Kommission, die die Vergehen von Stapel untersuchte, kam zu dem Schluss, dass zwar Forscher versuchten, die Studien zu replizieren. Als sie jedoch damit scheiterten, machten sie eher ihre eigenen unzureichenden Fähigkeiten dafür verantwortlich und akzeptierten Stapels‘ vermeintlich tolle Ergebnisse.

Neues, Unerwartetes, vielleicht sogar etwas so Revolutionäres wie „Durchbrüche“ vermeldet eine Fachzeitschrift sehr viel lieber als die gelungene Wiederholung eines schon publizierten Ergebnisses. Warum also der Aufwand nur zur Bestätigung des längst Bekannten? Viel Ruhm gibt es dabei nicht zu verdienen, möglicherweise noch nicht einmal eine Veröffentlichung, wenn das Journal ein solches Manuskript als „nicht relevant“ oder „nicht genügend innovativ“ zurückweist. Kein Wunder, dass Statistiken vermelden, dass die Anzahl der „positiven“ Resultate im Laufe der letzten Jahre immer weiter zugenommen hat. Immerhin – die wissenschaftliche Psychologie hat inzwischen reagiert und versucht in einer Datenbank (PsychFileDrawer) Berichte über Wiederholungen von Studien zu sammeln, ganz gleich ob sie erfolgreich oder erfolglos verliefen.

Metastudien: Auswahl bestimmt das Ergebnis

Wenn der bildungshungrige Arzt somit einsieht, dass er sich auf Einzelstudien nur begrenzt verlassen kann, wird er sich nun folglich – wie vorgeschlagen – systematischen Reviews und Metastudien zuwenden. Doch genau da erwarten die nächsten Unsicherheiten.

Eine aktuelle Publikation französischer Epidemiologen in JAMA unterlegt mit Fakten, was viele Wissenschaftler und Statistiker schon seit langem wissen: Das Ergebnis einer Metastudie hängt ganz entscheidend davon ab, welche Studien in die Analyse aufgenommen werden und entsprechend zum Gesamtergebnis beitragen. Die eingeschlossenen Studien, auch wenn sie den „Goldstandard: randomisiert und kontrolliert“ erfüllen, sind manchmal von ziemlich unterschiedlicher Qualität. Kleine und große Studien fließen gleichermaßen in die typische Metaanalyse ein. Geht man aber, wie Jesse Berlin und Robert Golub in ihrem Editorial zu obigem Artikel, davon aus, dass bei vielen RCT (randomised controlled trials) der Effekt einer Therapie überschätzt wird, so multipliziert sich das Ganze in der Metaanalyse. Agnes Deschartres und ihre Kollegen fanden bei den 163 untersuchten Metaanalysen bei knapp der Hälfte aller Studien signifikante Unterschiede, je nachdem, ob in die Analyse alle Studien oder nur die präzisesten eingingen. Solche Differenzen sahen die Autoren auch, wenn sie den Gesamtstudienpool mit einer Sammlung der größten oder derjenigen mit dem geringsten Verzerrungsrisiko („Risk of bias“) verglichen.

Bei der Erstellung von Metaanalysen gibt es zwar Empfehlungen (wie etwa von der Cochrane-Gesellschaft), jedoch keine festen Regeln. Seit 2011 nimmt PROSPERO, ein Register systematischer Reviews, solche Überblicksstudien auf, die strengen Regeln entsprechen und prospektiv angemeldet werden. Damit soll ausgeschlossen werden, dass die Auswahl der jeweiligen Einzelstudien gemäß dem gewünschten Gesamtergebnis erfolgt.

Echtes Interesse an der wissenschaftlichen Expertise

Einzelstudien-Reporting oder Review? Was können nun Berichterstatter tun, um zum einen die Qualität ihrer Publikationen zu verbessern, ohne dass sie an Verständlichkeit einbüßen? „A Guide to Reading Health Care News Stories“ überschrieb Gary Schwitzer einen Artikel in „JAMA Internal Medicine“ im Juli dieses Jahres. Zwischen 2006 und 2013 hatte sein Team von HealthNewsReview rund 1.900 Medizingeschichten in öffentlichen Medien untersucht und fällte bei den meisten von ihnen in mehreren Punkten das Urteil „Ungenügend“, wenn sie nicht den Mindestansprüchen an Evidenz, Objektivität oder Inhalt genügten. Oft resultierte etwa ein Zeitungsartikel auf einer einzigen Pressemeldung oder einigen wenigen Fragen an den Professor oder Arzt.

Pressestellen von Industrie oder akademischer Institution haben ein besonderes Anliegen, dass der Erfolg eines ihrer Produkte oder Mitarbeiter bekannt wird – zumeist aus ökonomischen Gründen. Um sich aber objektiv zu informieren, muss der Blick des Berichterstatters ebenso wie der des Arztes, der sein Wissen auffrischen möchte, über die einzelne Studie hinausgehen. Genauso muss er aber auch Überblicks-Publikationen kritisch hinterfragen. Medizinschreibern gibt der Wissenschaftsjournalist Alexander Mäder in der Stuttgarter Zeitung die Anregung: „Journalisten sollten seltener über aktuelle Studien berichten. Statt noch mit Sperrfrist versehene Fachartikel zu lesen und eine zweite Meinung zu den neuesten Erkenntnissen einzuholen, könnten sie mit Wissenschaftlern über das reden, was Menschen bewegt. Im Gespräch würden die Wissenschaftler natürlich Studien zitieren, aber es wären ältere Studien, die bereits in der Fachwelt diskutiert worden sind. Die Berichterstattung würde seltener durch Fachartikel ausgelöst, als vielmehr durch echtes Interesse an der wissenschaftlichen Expertise.“

Die Idee zu diesem Artikel und viele Hinweise auf Recherchequellen stammen aus dem Medizin- und Wissenschaftsblog „Plazeboalarm“.

85 Wertungen (4.79 ø)

Die Kommentarfunktion ist nicht mehr aktiv.

7 Kommentare:

Das Problem bleibt doch nach wie vor: Was heute Leitlinie ist morgen Behandlungsfehler und umgekehrt, natürlich streng wissenschaftlich belegt. Es bleibt wie unten dargelegt: mitdenken.

#7 |
  0
HP W. Scholz
HP W. Scholz

Es wäre manches leichter wenn Menschen, und insbesondere Mediziner, die Errungenschaft der Logik anwenden würden.
Als Beispiel nehme ich mal Cortison. Es ist ein langwirkendes Streßhormon welches zur Energiegewinnung u.a. Regeneration lahmlegt. Logik: Schmerzen weisen auf Abweichung von ‘Normal Null’ hin. Meist sind es Schäden die einer erhöhten Regeneration bedürfen (Akuter Rheumaschub mal ausgenommen – hier ist Cortison angezeigt). Nach ca. 50 Jahren exzessiven Cortisongebrauch gab es die erste Studie in den USA, bei Ileosacralschmerzen. Welche Verblüffung – nicht nur daß es nichts nutze sondern die Schäden wurden sogar vermehrt.
Na da bin ich schon vor Jahren bei meiner HP-Ausbildung drauf gekommen, ganz ohne Studie, nur mit Logik.
Mit Logik hätte man auch nie einen RoboDoc eingesetzt der jetzt in den Kellern dt. Kliniken vor sich hin modert. In den USA hat er keine Zulassung erhalten soweit ich weiß.
Logik bedarf aber einer umfassenden Bildung und die liegt in Dt. im Argen wie es schon der beste aller Bundespräsidenten, Heinemann, 1969 in seiner Ansprache feststellte und nach jahrelanger Bildungsmisere den Politikern für das nächste Jahr auf ihre Tagesordnung schrieb. Aber bald haben wir ein Jubiläum zu feiern: 50 Jahre Bildungsmisere! Und Lehrer die so gut sind, daß sie nur Einser, Zweier und Dreier ihren Schülern geben, werden gerüffelt weil sie nicht den Notenspiegel abbilden. Solch ein Bildungssystem kann man in die Tonne treten. Eltern, wie im aktuellen Fall, die ihren Kindern das nicht antun wollen werden mit Zwangsgeldern und Gefängnis bedroht.

#6 |
  0

Statt “Single Study Syndrome” eher “Single Stupid Syndrome”?
Wenn eine Virginia Hughes als Bloggerin beim National Geographic Magazine nur im Archiv der New York Times herum surft, um die Originalliteratur n i c h t lesen zu müssen, ist das einfach unklug: Denn die eingangs angesprochene “Resveratrol-Negativ-Studie” ist schlicht gestrickt. Morbidität, Mortalität vs. Gewinn an Lebensqualität und Lebenszeit wurden e i n z i g auf das Antioxidans Resveratrol z. B. in Rotwein heruntergebrochen. K a u s a l i t ä t bei Morbidität und Mortalität aber ausgerechnet ‘ex post’ mittels 24-Stunden-Urin-Reveratrol-Metaboliten nachweisen zu wollen ist lächerlich, o h n e je über Lebensstil- und Trink-Gewohnheiten exakt nachgedacht zu haben. [“Resveratrol Levels and All-Cause Mortality in Older Community-Dwelling Adults” – aus der InCHIANTI Studienpopulation – JAMA Intern Med 2014; online 12. Mai”]. Gesundheits- und Lebensqualitäts-Förderung bei moderatem Rotweinkonsum u n d mediterraner Ernährung in der InCHIANTI-Study [“Aging in the Chianti Region”] konnten mit dem vorgelegten Studiendesign gar nicht erst ernsthaft erfasst werden, weil die Ausgangsbedingungen für alle Teilnehmer gleich waren.

#5 |
  0
Dr. Gero Beckmann
Dr. Gero Beckmann

Vielen Dank für den interessanten Artikel! Ich meine allerdings, dass es neben dem ökonomischen Interesse vieler Institutionen, Hochschulen, Forschungseinrichtungen an schneller Veröffentlichung selbstverständlich auch einen ganz naheliegenden und wohl unbestreitbaren menschlichen Faktor gibt, nämlich “Ruhm und Ehre”. Es wäre wohl auch keiner der Akteure ehrlich, der nicht zugeben würde, dass selbstredend hinter Impact & Co. auch das große “Im-Mittelpunkt-Stehen-(Wollen)” Einfluss nimmt bzw. die Triebkraft befeuert. Nicht umsonst findet man im Forscherumfeld nicht wenige klinisch manifeste Narzissten.

#4 |
  0
Manfred Büttner
Manfred Büttner

Toller Beitrag und klasse Ergänzung von Herrn Nunhofer #1.
Vielleicht sollte man Studienergebnisse viel eher als “neues Licht” zu sehen, das auf Diagnose und Therapie geworfen wird, statt als absolute Wahrheit.
Unter Verwendung des bekannten Spruches von Marcel Proust könnte man sagen, dass Studienergebnisse, von Einzelstudien bis zu Metaanalysen, absolut geeignet sind, des Therapeuthen Lieblingsdiagnose und-Therapie, von der es den meisten von uns sehr schwerfällt, abzuweichen, gelegentlich zu überdenken. Je mehr “Meta” in den Studienergebnisen, desto eher.
Aber klar, so ein Patient ist eben auch nur ein Mensch. Und zwar einer von mehr als 7 Mrd Individuen. Jenseits aller Studien an einigen von ihnen.
Wie Herr Nunhofer sagt: Es wäre ein sehr fataler Fehler im System, wenn “… die sicher effiziente Ressource ‘individuelle ärztliche Intuition und Erfahrung’ als wertlos abgeschafft würde…”.

#3 |
  0
Dr. med. Margarete Ott
Dr. med. Margarete Ott

Die “Nelken” dürften Tagetes sein?!

Eine berentete Ärztin mit Naturerfahrung!

#2 |
  0

Ein interessantes Thema, das sehr vielschichtig ist. Ganz und gar unbeantwortet ist bisher die Frage, wie evidenzbasiert eigentlich “evidenzbasiert” ist.

In der Diagnostik wie in der Therapie gibt es bekanntlich zwei mögliche Fehlertypen.
Am Beispiel “Therapie” erläutert:
– Fehler 1. Art: Der Pat. erhält eine Behandlung, die nur fälschlicherweise als wirksam angesehen wird.
– Fehler 2. Art: Patient bekommt eine Behandlung nicht, die ihm helfen würde.

Nun wird durch solide Studien der Fehler erster Art minimiert. Konkretes Beispiel: die früher lange Jahre obligate Behandlung frischer Schlaganfälle mit Plasmaexpandern ist obsolet – Studien konnten die Ineffizienz der Behandlungsmaßnahme zeigen.

Dumm nur, dass – schon rein mathematisch bedingt – mit der Minimierung des Fehlers 1. Art quasi automatisch der Fehler 2. Art zunimmt. Mit zunehmender Studiengläubigkeit bleibt die ärztliche Intuition immer mehr auf der Strecke. Bsp.: Mir berichtet ein junger Pat. mit einer chronifizierten Depression + schweren Zwangserkrankung, dass in der universitären PIA, in der er seit Jahren in Behandlung ist, eine rTMS zwar erwogen worden sei, aber nicht durchgeführt worden sei mit dem Argument: es gebe bei Zwangserkrankungen keine soliden Studien zur Effizienz der rTMS. Allerdings: die Behandlung kostet nichts außer ein bißchen Stom aus der Steckdose und ist nebenwirkungsarm, um nicht zu sagen nebenwirkungsfrei. Das Vorenthalten der Behandlung ist ein zumindest möglicher Fehler 2. Art.

Nun ist der Fehler 2. Art mittels Studien nicht messbar: wie will ich wissen, dass eine Behandlung geholfen hätte, wenn ich sie nicht durchführe? Das einzig relevante Faktum ist das mathematische: Minimierung des Fehlers 1. Art = Maximierung des Fehlers 2. Art. Dieses mathematisch unstrittige Faktum interessiert allerdings Gesundheitsökonomen nicht, weil der Fehler 2. Art eben nicht direkt ökonomisch messbar ist. Die zugehörige, aber nicht errechenbare und damit nicht beantwortbare ökonomische Frage lautet: Welche zusätzlichen Kosten entstehen durch die Unterlassung einer effizienten, wenn auch wissenschaftlich noch nicht hinreichend evaluierten Behandlung?

Messbar sind allerdings die Einsparungen durch die Minimierung des Fehlers 1. Art. Gesundheitsökonomen kaprizieren sich nun ausschließlich auf die Kostenreduktionen durch den Fehler 1. Art und erklären jedwede Behandlung für medizinisch nicht notwendig, die noch nicht statistisch ausreichend evaluiert ist. In der Summe dürfte es sich allerdings um eine Milchmädchenrechnung – wenn nicht sogar um ein Draufzahlgeschäft – handeln, weil die sicher effiziente Ressource “individuelle ärztliche Intuition und Erfahrung” als wertlos abgeschafft wird.

Diese Zusammenhänge sind unseren Damen und Herren Leitlinienschreibern offenkundig oftmals nicht vertraut mit der Folge, dass Leitlinien schon etwas dogmatisches haben oder zumindest v.a. im Versicherungswesen als quasi Gesetz angesehen werden. Da bräuchte es einmal ein klares Wort eines Medizinstatistikers – und auch von den Leitlinienautoren, die nicht nur fachliche Koryphäen und zugleich intellektuelle Pygmäen sind, sondern klar erkennen, dass sich das Individuum “Patient” oft genug in Leitlinien nicht wiederfindet.

Übrigens, bevor es Missverständnisse gibt: Ich sehe mich als knochentrockenen Schulmediziner. Paramedizinische Behandlungsverfahren sind mir sehr suspekt – das fängt sogar schon bei der Akupunktur an, von Homöopathie ganz zu schweigen.

#1 |
  0


Copyright © 2017 DocCheck Medical Services GmbH
Sprache:
DocCheck folgen: