Leberkrebsrisiko anhand von Routinedaten vorhersagen?

Symbolbild für Leberkrebs. — © usama/stock.adobe.com

Mithilfe von maschinellem Lernen war es möglich, anhand der Patientendemografie, Daten aus elektronischen Patientenakten und Ergebnisse routinemäßiger Blutuntersuchungen das Risiko eines Patienten für hepatozelluläres Karzinom (HCC) mit hoher Genauigkeit vorherzusagen.

Bisher konzentrieren sich die aktuellen Leitlinien beim Screening auf eine kleine Hochrisikogruppe und erfassen viele Risikopatienten nicht, erklärt Prof. Dr. Carolin Schneider, Co-Senior- und korrespondierende Autorin von der RWTH Aachen. „Ein Screening wird in der Regel für Patienten mit bestätigter Leberzirrhose oder schwerer Lebererkrankung empfohlen, da viele Fälle von HCC bei diesen Patienten auftreten. Es gibt aber auch viele Menschen mit nicht diagnostizierter Zirrhose oder anderen Risikofaktoren, die von einem Leberkrebs-Screening profitieren könnten“, so Schneider. Weitere Risikofaktoren für die Entwicklung von HCC seien unter anderem männliches Geschlecht, Rauchen und starker Alkoholkonsum, ergänzt Dr. Jan Clusmann, Erstautor der Studie und klinisch-wissenschaftlicher Mitarbeiter an der Technischen Universität Dresden. „Angesichts der vielen Risikofaktoren besteht ein dringender Bedarf an effektiven Instrumenten, die Ärzten helfen, Hochrisikopatienten zu identifizieren“, betont Clusmann. „Maschinelle Lernverfahren, die verschiedene Arten klinischer Daten gleichzeitig verarbeiten können, könnten für diese große klinische Herausforderung besonders hilfreich sein.“

Nutzung der UK Biobank-Daten

In der Studie nutzte das Forschungsteam Daten der UK Biobank, um maschinelle Lernmodelle zu entwickeln, die verschiedene Arten klinischer Daten analysieren können, um das HCC-Risiko zu bewerten. Die UK Biobank enthielt Daten von über 500.000 Personen aus dem Vereinigten Königreich und umfasste 538 Fälle von hepatozellulärem Karzinom (HCC). 69 % dieser Fälle traten bei Patienten ohne vorherige Diagnose von Leberzirrhose, Virushepatitis oder anderen chronischen Lebererkrankungen auf. Die Forscherinnen und Forscher trainierten ihre Modelle mit 80 % der Daten der UK Biobank und führten eine erste Validierung mit den verbleibenden 20 % durch. Eine externe Validierung erfolgte anhand des „All of Us“-Registers, das Daten von über 400.000 Personen in den Vereinigten Staaten umfasst und, wie die Autoren anmerken, auch Bevölkerungsgruppen repräsentiert, die in der medizinischen Forschung historisch unterrepräsentiert waren. Das Register enthielt 445 Fälle von HCC.

Modell mit Random-Forest-Architektur

Die von den Autoren entwickelten Modelle basierten auf einer Random-Forest-Architektur, einer Methode, die Hunderte von Entscheidungsbäumen kombiniert. Jeder Entscheidungsbaum trifft eine Reihe einfacher Ja/Nein-Entscheidungen auf Basis verschiedener Variablen aus Patientendaten. Die endgültige Vorhersage ergibt sich aus der Aggregation der Ergebnisse aller Bäume. Dadurch soll das Modell robuster, zuverlässiger und besser interpretierbar werden. Für fünf verschiedene Arten klinischer Daten sowie für schrittweise Datenkombinationen in aufsteigender Reihenfolge ihrer klinischen Verfügbarkeit wurde jeweils ein separates Random-Forest-Modell trainiert: Patientendemografie, Daten aus elektronischen Patientenakten, Blutwerte, Genomik und Metabolomik. Die Leistungsfähigkeit dieser Modelle wurde anhand der Fläche unter der ROC-Kurve (AUROC) bewertet. Diese beschreibt die Fähigkeit des Algorithmus, zwischen zwei Gruppen zu unterscheiden (in diesem Fall Patienten der Validierungskohorte mit HCC vs. Patienten ohne HCC). 1 wäre dabei die perfekte Punktzahl.

Leicht verfügbare Daten genügen für Vorhersage

Das Forschungsteam stellte fest, dass ein Modell, das nur die Datensätze Demografie, elektronische Patientenakten und Blutwerte kombiniert (Modell C), mit einer AUROC von 0,88 die beste Leistung erzielen konnte. Die Hinzunahme von Genomik- und/oder Metabolomikdaten habe dagegen zu keiner wesentlichen Leistungssteigerung beigetragen. Dies habe gezeigt, dass das Risiko für hepatozelluläres Karzinom (HCC) anhand einfacher, leicht verfügbarer Daten vorhergesagt werden könnte, ohne aufwendige und teure Genomsequenzierungen durchführen zu müssen, bekräftigt Schneider. Diese Eigenschaft zeige das Potenzial des Modells für eine breite Anwendung, insbesondere in ressourcenarmen Umgebungen. Die Autoren betonen zudem, dass das verwendete Modell im Vergleich zu bestehenden Modellen echte HCC-Fälle besser erkennen konnte und gleichzeitig weniger falsch-positive Ergebnisse geliefert habe. Um das Modell C praxisnäher zu gestalten, hatten die Forscherinnen und Forscher systematisch die Anzahl der untersuchten klinischen Merkmale reduziert. Eine so vereinfachte Modellversion mit nur 15 routinemäßig erhobenen klinischen Merkmalen habe weiterhin bestehende Risikoprädiktionsmodelle übertroffen. Letztlich könne das Modell bei entsprechender Validierung künftig eine frühere Erkennung und bessere Behandlungsergebnisse für Patienten mit dieser aggressiven Erkrankung ermöglichen.

Literatur:
Clusmann J, Koop P-H, Zhang DY, et al.: Machine learning predicts hepatocellular carcinoma risk from routine clinical data: a large population-based multicentric study. Cancer Discov (2026), DOI: https://doi.org/10.1158/2159-8290.CD-25-1323.

Quelle: American Association for Cancer Research

#Krebs

Artikel teilen

Leberkrebsrisiko anhand von Routinedaten vorhersagen?

Nutzung der UK Biobank-Daten

Modell mit Random-Forest-Architektur

Leicht verfügbare Daten genügen für Vorhersage

Online-Angebot der MT im Dialog

Stellen- und Rubrikenmarkt

Leberkrebsrisiko anhand von Routinedaten vorhersagen?

Nutzung der UK Biobank-Daten

Modell mit Random-Forest-Architektur

Leicht verfügbare Daten genügen für Vorhersage

Das könnte Sie auch interessieren:

Online-Angebot der MT im Dialog

Stellen- und Rubrikenmarkt