Künstliche Intelligenz soll helfen, Krebs schneller und präziser zu diagnostizieren sowie zu charakterisieren. Große KI-Systeme, Foundation Models, die auf Millionen mikroskopischer Gewebebilder vortrainiert wurden – werden zunehmend zur Krebsdetektion, Krankheitsklassifikation und Biomarker-Vorhersage in klinischen Arbeitsabläufen eingesetzt. Ein interdisziplinäres Forschungsteam aus der TU Berlin, dem KI-Unternehmen Aignostics, der Ludwig-Maximilians-Universität München und dem Netherlands Cancer Institute, deckte eine kritische Schwachstelle dieser Modelle auf: Jedes Pathologielabor hinterlässt eine subtile Signatur auf seinen Gewebeschnitten, deshalb entstehen Unterschiede bei der Präparation, Färbung und Digitalisierung der Biopsien. KI-Systeme machen diese medizinisch irrelevanten Unterschiede sichtbar und die Modelle verinnerlichen sie. Die Forschenden wiesen nach, dass aktuelle Foundation Models anhand gelernter Merkmalsrepräsentationen das Herkunftskrankenhaus eines Gewebeschnitts mit einer Genauigkeit von 88 bis 98 Prozent identifizieren können. So sortierten manche Modelle die Daten primär nach Krankenhäusern und nicht nach der Malignität der Gewebe.
Fatale Fehler
Die Folgen falscher Sortierungen können gravierend sein. So lernte ein KI-Modell, die Krankenhaus-Signatur als Abkürzung für seine Entscheidungen zu nutzen. Dadurch klassifizierte es einen eindeutig bösartigen Gewebeausschnitt fälschlicherweise als gesund – nur, weil die Probe aus einem Krankenhaus stammte, das in der Vergangenheit hauptsächlich gutartige Proben geschickt hatte.
Um diese Problematik messbar zu machen, entwickelten die Forschenden PathoROB, den ersten öffentlich verfügbaren Bewertungsmaßstab, der die Robustheit von Foundation Models in der Pathologie gegenüber technischen Variationen adressiert. Er vereint vier Datensätze mit rund 100.000 Gewebeausschnitten, 28 biologischen Klassen und 34 medizinischen Zentren. Darüber hinaus quantifiziert ein neuer „Robustheitsindex“, wie stark die interne Repräsentation eines Modells von der Biologie und nicht von Krankenhausartefakten bestimmt wird.
Verschiedene Modelle geprüft
Insgesamt wurden 20 weit verbreitete Foundation Models mithilfe von PathoROB auf Defizite überprüft. Größere Modelle, die auf vielfältigen Daten trainiert wurden, und Modelle, die Bilddaten mit Textberichten kombinieren (Vision-Language-Modelle), erzielten die besten Ergebnisse. Zudem testeten die Forschenden nachträgliche Verfahren zur „Robustifizierung“ und stellten fest, dass diese das Fehlerrisiko deutlich reduzieren können – wenn auch nicht vollständig. Dabei war kein kostspieliges erneutes Training des zugrunde liegenden Modells erforderlich. „Foundation Models für die Pathologie entwickeln sich rasant. Unsere Ergebnisse zeigen, dass eine starke Leistung auf einem Standard-Benchmark nicht ausreicht, um einem Modell im klinischen Einsatz zu vertrauen“, sagte Julius Hense, Co-Erstautor der Studie und Forscher der TU Berlin. „PathoROB gibt Entwickelnden und klinischen Anwendern ein Werkzeug an die Hand, um zu überprüfen, ob ein Modell tatsächlich biologische Zusammenhänge gelernt hat oder lediglich erkannt hat, aus welchem Krankenhaus ein Präparat stammt.“
Möglichkeiten künftiger Pathologie-KI
Der neue Bewertungsmaßstab verändert die Bedingungen, wie KI für die Pathologie entwickelt und verglichen wird. Ein gemeinsam mit der Mayo Clinic in den USA entwickeltes Foundation Model der nächsten Generation von Aignostics trägt den Namen „Atlas 2“. Es adressiert die von PathoROB aufgedeckten Zielkonflikte zwischen Leistung und Robustheit. Darüber hinaus etabliert sich PathoROB als Standardmaßstab für die Robustheit von Foundation Models. Neue Modelle oder Plattformen wie „Histoboard“ weisen ihre PathoROB-Ergebnisse als einen der Bewertungsmaßstäbe aus, um Pathologie-KI-Modelle direkt miteinander zu vergleichen. Durch die offene Bereitstellung des neuen Bewertungsmaßstabs, der Datensätze und des Quellcodes hoffen die Forschenden, die Bewertung der Robustheit als festen Bestandteil der Validierung biomedizinischer Modelle zu etablieren. Wichtig ist diese Einschätzung, bevor sie zur Unterstützung klinischer Entscheidungen und zur Beeinflussung von Patientenbehandlungen eingesetzt werden.
Quelle: idw
Artikel teilen




