Was zählt, und was nicht zählt

Biostatistiker haben entscheidenden Anteil am Design klinischer Studien. Und einen exponierten Platz: zwischen allen Stühlen.




Manchmal reicht es nicht, dass schädliche Bakterien einfach nur tot sind. Für ein neu entwickeltes Antibiotikum beispielsweise ist das Ableben der winzigen Krankheitserreger eine notwendige, aber längst keine hinreichende Bedingung. So auch bei der Behandlung der Bronchiektasie, einer chronischen, irreversiblen Ausweitung der Bronchien, die fast immer von einer eiternden bakteriellen Infektion begleitet wird. Eine dauerhaft wirksame Therapie gegen die immer wieder wütenden Bakterienstämme war lange Zeit nicht in Sicht – bis die Pharmakologen und Mediziner des Arzneimittelherstellers Bayer HealthCare Pharmaceuticals ein neues Antibiotikum zum Inhalieren entwickelten. In Experimenten mit Tieren und ersten klinischen Tests an Patienten hatten die Forscher die Wirksamkeit des Präparats unter Beweis gestellt: Die Bakterien in der Lunge waren nach der Behandlung mit dem Medikament nicht mehr nachweisbar.

Auch wenn das nicht bedeutet, dass sie nicht wiederkommen: Es war ein vielversprechendes Resultat – und Beginn einer langjährigen Arbeit für Katrin Roth, die sich bei Bayer HealthCare Pharmaceuticals in Berlin im Reich der Korrelationen, Kausalitäten, Standardabweichungen, Tödlichkeitsraten und Signifikanzniveaus bei klinischen Studien bewegt. Als die 33-Jährige die Ergebnisse der Tests im vergangenen Jahr sah, war ihr sofort klar, dass für die nun anstehende mehrjährige Studie an Hunderten von Patienten in Europa, den USA und Japan ein völlig neuer Ansatz entwickelt werden musste. Denn das ist der Unterschied zwischen der ersten wirksamen Substanz und dem möglichen späteren Medikament: „Entscheidend ist nicht nur, was mit den Bakterien passiert, sondern wie es den Patienten, die das Medikament einnehmen, auf lange Sicht geht“, sagt die promovierte Statistikerin. Müssen die Patienten in der Folgezeit weniger häufig ins Krankenhaus? Kommt es seltener zu Neuerkrankungen? Solche Fragen rückten jetzt in den Fokus. Roth scannt ihr Methoden-Instrumentarium darauf ab, welche Tests gerechnet werden könnten, damit sich am Ende der Studie aus Zigtausenden von Einzeldaten eine klare Antwort auf die alles entscheidende Frage herausdestillieren lässt: Wie gut wirkt das Präparat?

Biostatistiker wie Katrin Roth gehören zu den unverzichtbaren Akteuren bei der Planung und Durchführung klinischer Arzneimittelstudien. Ohne sie hätte kein Medikament eine Chance auf Zulassung. Aber mit ihrer Unterstützung ist der Erfolg der aufwendigen Arbeit leider keineswegs garantiert, obwohl sie bereits die Grundlagen mit definiert. Die Biometrie-Profis sind von Anfang an dabei, wenn es darum geht, die großen Linien der Architektur einer Studie zu entwerfen: Was wollen wir herausfinden? Wie viele Patienten werden wir benötigen, um die therapeutische Wirksamkeit des neuen Medikaments zu testen? Wie erfüllen wir die strengen Anforderungen der Zulassungsbehörden? Wie können wir die Patienten auf die Testgruppen aufteilen, damit der Einfluss von Störfaktoren wie Nikotinoder Alkoholkonsum, Alter und Vorerkrankungen, die das Ergebnis verfälschen könnten, minimiert wird?

Bei ihrer Arbeit bewegen sie sich ständig in einem Spannungsfeld divergierender Interessen und Erwartungen. Sie sind ihrem Arbeitgeber verpflichtet, der das bestmögliche Präparat auf den Markt bringen will, aber gleichzeitig daran interessiert ist, dass die Entwicklungskosten nicht aus dem Ruder laufen. Vonseiten der Bevölkerung schallt ihnen der Ruf nach wirksamen, neuen und gut verträglichen Medikamenten auf aktuellem Stand der Forschung entgegen, während Gesetzgeber und Gesundheitsbehörden auf strikte Einhaltung ihrer Normen und Richtlinien pochen. Und nicht zuletzt sind die Biostatistiker auch den Studienteilnehmern verpflichtet: Zwar erhöht sich die Ergebnissicherheit einer Studie mit der Größe der Stichprobe – aber niemand will auch nur einen Patienten mehr als unbedingt nötig einer noch nicht geprüften Medikation mit weitgehend unbekannten Nebenwirkungen aussetzen. 

Was genau wollen wir herausfinden?

Die Arbeit der Zahlenexperten beginnt in der Regel in der Phase II einer klinischen Prüfung, wenn erstmals die Wirksamkeit an meist 100 bis 300 Patienten getestet und die optimale Dosierung gesucht wird. Nicht selten begleiten sie die Studien über einen Zeitraum von fünf bis zehn Jahren – bis weit über die Zulassung hinaus.

Der Test des Antibiotikums gegen die bei der Bronchiektasie einfallenden Bakterien war insofern untypisch: Katrin Roth stieg erst nach Abschluss der Phase II in das Projekt ein. Entsprechend schnell verdichteten sich ihre Überlegungen zur Frage nach dem eigentlichen Ziel der nun anstehenden Versuche: „Was genau wollen wir herausfinden?“ Zielgröße heißt der Untersuchungsgegenstand im Fachjargon. Aus der Perspektive der Biostatistikerin ist es essenziell, dass die Zielgröße messbar ist.

Besonders kompliziert ist das bei einem Medikament, das den Verlauf einer chronischen Krankheit lindern oder verlangsamen soll. In manchen Fällen müssen die Parameter, an denen sich Erfolg oder Scheitern des Projektes bemessen lassen, erst mühsam herausgearbeitet werden. Beim LungenAntibiotikum kristallisierten sich nach intensiver Diskussion mit den Medizinern zwei Zielgrößen heraus: Wie lange dauert es im Schnitt bis zur ersten akuten Verschlimmerung nach Beginn der Behandlung? Und: Wie viele solcher Verschlimmerungen pro Jahr erleben die Patienten während der Therapie? Vor dem Start der Studie musste außerdem definiert werden, was als „deutlicher Effekt“ im Vergleich zu einer Placebo-Behandlung zu werten wäre. „Wenn die durchschnittliche Zahl der Krankheitsschübe durch die Behandlung beispielsweise von 2 auf 1,9 sinken würde, wäre das wohl kaum eine deutliche Verbesserung“, sagt Roth.

All diese Anforderungen an die Studie werden in interdisziplinären Teams aus Medizinern, Biostatistikern, Pharmakologen, Datenmanagern und Study-Managern – den Verantwortlichen für Organisation und Durchführung – diskutiert und festgezurrt, lange bevor der erste Studienteilnehmer das Medikament verabreicht bekommt. Ein solides medizinisches Grundwissen über Krankheiten, Präparate und ihre Nebenwirkungen sollten auch die Statistiker mitbringen, Detailwissen beispielsweise über biochemische Reaktionsketten und Formeln von Wirkstoffen ist dagegen nicht notwendig. Umgekehrt verlangt auch niemand von den Medizinern im Team, dass sie die Formel des Korrelationskoeffizienten nach Pearson herunterbeten können. 

Wie viele Patienten brauchen wir?

Das finale Studiendesign ist Resultat eines Bündels gewissenhafter Diskussionen im Team, bei denen natürliche Gebietshoheiten existieren. „Bei der richtigen Anfangsdosis sind vor allem die Pharmakologen und Mediziner gefragt“, sagt Katrin Roth, „während bei der Größe der Stichprobe eher die Statistiker das Sagen haben.“ Je mehr Patienten an der Studie teilnehmen, desto größer ist beispielsweise die Chance, dass auch seltene Nebenwirkungen erfasst werden. Außerdem erlauben große Stichproben Aussagen auf einem höheren Sicherheitsniveau als Tests mit vergleichsweise wenigen Teilnehmern. 

Selbstverständlich kann Katrin Roth bei der Bemessung der Stichprobengröße nicht nach Belieben schalten und walten. Sie muss mit den Medizinern aber auch nicht um jeden Patienten feilschen. Die Zahl der Teilnehmer ergibt sich nämlich manchmal schon weitgehend aus den einschlägigen Bestimmungen der Genehmigungsbehörde. Maßgeblich für die Europäische Union, die USA und Japan sind vor allem die „Statistical Principles for Clinical Trials“, auf die sich forschende Arzneimittelhersteller und Gesundheitsbehörden in der ICH verständigt haben – der International Conference on Harmonisation of Technical Requirements for Registration of Pharmaceuticals for Human Use. Die dort definierten Vorgaben – unter anderem für den Stichprobenumfang, die Auswahl der Zielgröße, den Umgang mit den gesammelten Patientendaten sowie die statistische Auswertung – sind für Katrin Roth und ihre Berufskollegen in anderen Pharmaunternehmen absolut verbindlich.

Wo steht die Konkurrenz?

Manchmal stutzt auch das Budget die Wünsche der Biostatistiker zurecht. Ziel ist es dann, ein effizienteres Studiendesign mit möglicherweise weniger Patienten zu finden, ohne dass die Aussagekraft der Untersuchungen leidet. „In solch einem Fall überlegen wir beispielsweise, welche Zielgröße uns einen größeren Behandlungseffekt zeigen könnte.“ In der Onkologie zum Beispiel testet man häufig zwei Zielgrößen in einer Studie statt in zwei getrennten. Die Wirksamkeit des Medikaments wird dann sowohl an der Gesamtüberlebensdauer des Patienten als auch an der Zeit bis zur Verschlechterung seines Zustands gemessen.

 Und als wäre das alles nicht schon komplex genug, haben Katrin Roth und ihre 20 Kollegen von der Statistik-Crew bei Bayer HealthCare Pharmaceuticals auch noch ständig die Konkurrenz im Blick. Schließlich entscheidet der Zeitpunkt für die Zulassung eines neuen Medikaments im Zweifel über Umsätze oder Verluste in Millionenhöhe. Wo also stehen die Wettbewerber? Welche Phase-II-Ergebnisse präsentieren Novartis oder Pfizer auf medizinischen Kongressen? Welche Daten haben sie? Haben wir die Nase vorn, oder müssen wir das Tempo anziehen? An welchen Stellschrauben des Studiendesigns könnten wir noch drehen?

Was messen wir zuerst?

Der Lackmustest für die Arbeit des Projektteams ist die Verteidigung des Studiendesigns bei den Gesundheitsbehörden. Da Bayer mit dem Lungen-Antibiotikum, wie bei den meisten Arzneimitteln, auf die Märkte in Europa, den USA und Japan abzielt, reiste Katrin Roth zunächst nacheinander nach London, Washington und Tokio. Dort saß sie den Biostatistikern der European Medicines Agency, der Food and Drug Administration sowie der Pharmaceuticals and Medical Devices Agency gegenüber und diskutierte Stichproben, Randomisierung, Zielgrößen und statistische Testverfahren. Besonders die Verhandlungen in Tokio sind ihr bis heute in Erinnerung: Sie liefen auf Japanisch, mit Simultanübersetzung. 

Anders als zu den Patienten, die sie nie zu Gesicht bekommt, wahrt Katrin Roth zu den Medikamenten auf ihrem Prüfstand stets eine gewisse emotionale Distanz. Man dürfe schließlich nie vergessen, dass es bei all dem um die Erprobung an Menschen gehe, die nicht selten schwer oder unheilbar krank sind. „Wenn wir nicht zeigen können, dass das Präparat wirkt, werden wir nicht weitermachen“, stellt sie klar.

Sie selbst hadert eher mit den Fällen, in denen trotz vielversprechender Resultate ein Projekt nicht weiterverfolgt wird – etwa weil die Kosten einer groß angelegten klinischen Studie nicht im sinnvollen Verhältnis zu den erwarteten späteren Umsätzen stehen. Bayer hat in den vergangenen Jahren fünf neue Medikamente auf den Markt gebracht. Sie versprechen ein Umsatzpotenzial von insgesamt 7,5 Milliarden Euro jährlich, aber sie haben auch das Budget für klinische Studien nachhaltig geschröpft. Allein das Anti-Thrombose-Mittel Xarelto wurde an 60 000 Patienten getestet. So ein Aufwand geht – zumindest vorübergehend – zulasten der nächsten Projekte in der Pipeline.

Das Lungen-Antibiotikum befindet sich jetzt in Phase III der klinischen Studie. Ob die ersten Ergebnisse vielversprechend sind? „Wie soll ich das wissen?“, antwortet Roth sehr bestimmt. „Wir können nicht zwischendurch die Decke lüften und schon mal ein bisschen auswerten.“ Die Statistikerin hat zwar Einsicht in sämtliche von den Ärzten eingegebene Daten, aber diese sind „verblindet“. Sie weiß also nicht, welcher Patient welche Behandlung erhalten hat – das Medikament, ein Placebo oder das Vergleichspräparat eines anderen Herstellers. Und sie hat auch keine Möglichkeit es herauszufinden.

Wird sich die Arbeit gelohnt haben?

Beim Test einer Substanz, mit der sich die für Alzheimer spezifischen Ablagerungen im Gehirn nachweisen lassen, hatte Katrin Roth auch keinerlei Information darüber, welche der teilnehmenden Patienten tatsächlich an Alzheimer litten oder an anderen Formen von Demenz. „Sonst hätte man zwischendurch die Testgruppen neu zuschneiden und die Studie so manipulieren können, dass auf jeden Fall ein schönes Ergebnis herauskommt“, sagt sie und nimmt damit eine häufig vorgebrachte Kritik an den Arzneimittelherstellern auf. Dabei würde eine derartige Manipulation letztlich auch dem Hersteller nicht nützen: „Wenn wir in einer frühen Phase die Ergebnisse schönredeten, um dann in Phase III doch zu scheitern, hätten wir Millionen ausgegeben – und am Ende trotzdem kein zugelassenes Medikament.“

Geht hingegen alles gut, kommt irgendwann, zumeist nach Jahren, jener Moment, auf den alle gespannt warten: die Auswertung der Daten. Zuvor wird die Datenbank geschlossen; niemand kann jetzt mehr Änderungen vornehmen. Auch die Ärzte können keine Eintragungen mehr nachschieben. Und wenn Daten fehlen, weil Patienten zwischendurch die Studie abgebrochen oder vergessen haben, zum vereinbarten Zeitpunkt zur Untersuchung zu gehen, oder weil ein Reagenzglas mit einer Laborprobe versehentlich verunreinigt wurde? All das passiere, aber auch dafür gebe es rigide Vorschriften der Gesundheitsbehörden, erklärt die Statistikerin. Und betont, dass sie auf keinen Fall nur vollständige Datensätze auswerten dürfe, weil auch das zu Verzerrungen der Ergebnisse führe.

Erst jetzt, nach der Versiegelung der Datenbank, erhält Katrin Roth in anonymisierter Form Informationen darüber, wie die einzelnen Patienten behandelt wurden. Jetzt endlich kann sie die Daten durch die statistischen Testverfahren laufen lassen – Varianzanalyse, Log-Rank-Test, Cochran-Mantel-Haenszel-Test – und sieht in den meisten Fällen sehr schnell, ob sich eine Wirksamkeit des Medikaments nachweisen lässt oder nicht.

Das ist nicht immer ein erhabener Moment, vieles wird im Laufe der Jahre Routine. Aber hin und wieder wachsen beim „Proof of the pudding“ auch Rosen aus dem Asphalt, so wie damals bei den finalen Tests des Alzheimer-Diagnostikums Florbetaben. Es war kurz vor Weihnachten, die meisten Kollegen waren schon im Urlaub, als Katrin Roth in ihrem Büro in Berlin-Wedding die ersten Auswertungen der Phase-III-Studie vornahm. Sie sah die Ergebnisse und wusste: Ja, es funktioniert. Das neue Diagnostikum war ein Volltreffer. Für ihren Arbeitgeber. Vor allem aber für die erkrankten Menschen und ihre Angehörigen. „Es war eines meiner absoluten Highlights“, sagt Roth. „Schließlich ging es dabei ja nicht um Kopfschmerzen, sondern um Alzheimer.“


Dieser Text stammt aus unserer Redaktion Corporate Publishing.