Wie sinnvoll sind Diagnosen mit ChatGPT & Co.?
Zwei aktuelle Studien der TU Berlin haben die Qualität und Wirksamkeit dieser digitalen Gesundheitsempfehlungen untersucht. Die Ergebnisse zeigen sowohl Potenziale als auch Risiken auf. In der ersten Studie entwickelte ein Team um Dr. Marvin Kopka aus dem Fachgebiet Arbeitswissenschaft an der TU Berlin eine neue Testmethode, um die Genauigkeit von Gesundheitsempfehlungen durch ChatGPT und andere KI-Modelle wie Meta’s LLaMa sowie speziell entwickelte Symptom-Checker-Apps, die Symptome abfragen und darauf basierend Handlungsempfehlungen geben, zu bewerten. Während frühere Tests auf idealisierten Lehrbuchfällen basierten, die in der Realität so kaum vorkommen, setzt die neue Methode auf echte Patientenfälle, mit denen die Wissenschaftler/-innen der TU Berlin verschiedene digitale Tools testeten. Dadurch lasse sich realistischer einschätzen, wie präzise und hilfreich die digitalen Tools in der Praxis wirklich sind. „Man kann unsere standardisierte Methode als eine Art ‚Stiftung Warentest‘ ansehen, da wir mit ihr die Genauigkeit von verschiedenen Apps vergleichen können, aber auch ihre Stärken und Schwächen finden“, sagt Studienleiter Kopka.
Symptom-Checker-Apps besser als ChatGPT?
Das Forschungsteam zeigt auf, dass Symptom-Checker-Apps für Laien deutlich hilfreicher sind als ChatGPT, insbesondere wenn es um die Unterscheidung zwischen harmlosen und ernsten Symptomen geht. Während demnach ChatGPT fast jeden Fall als Notfall oder hochdringlich einstufe, könnten die spezialisierten Apps in den meisten Fällen fundierte und angemessenere Empfehlungen geben. Was auch schon andere Studien belegen: ChatGPT kann Krankheiten gut diagnostizieren, wenn Laborwerte oder Untersuchungsergebnisse vorliegen. Da diese zu Hause meist fehlen, bleibe die Diagnose aber oft ungenau und die vom Modell vorgeschlagene Liste mit mehreren möglichen Erkrankungen helfe Laien am Ende nur wenig. Entscheidender seien Handlungsempfehlungen wie „Geh zum Arzt“ oder „Ruf die 112“ – hier schneide ChatGPT jedoch schlecht ab, da es fast jeden Fall als behandlungsbedürftig einstufe, selbst bei harmlosen Symptomen.
Massive Überlastung des Gesundheitssystems befürchtet
Was die Forscherinnen und Forscher auch herausfanden: Laien erkennen medizinische Notfälle meist zuverlässig und rufen in ernsten Fällen, wie bei einer schweren Kopfverletzung mit Erbrechen und Schwindel, den Rettungsdienst. Schwerer falle es ihnen jedoch, harmlose Symptome richtig einzuschätzen. So neigten viele dazu, bei leichten Beschwerden wie kurzfristigem Durchfall oder einer kleinen Hautveränderung vorschnell ärztliche Hilfe in Anspruch zu nehmen, obwohl dies oft nicht nötig wäre. „Dass immer mehr Menschen ChatGPT für medizinische Ratschläge nutzen, ist schädlich für das Gesundheitssystem. Die KI motiviert die Nutzer/-innen häufig dazu, bei den kleinsten Symptomen sofort einen Arzt oder die Notaufnahme aufzusuchen. Das kann zu einer massiven Überlastung führen“, warnt Kopka vor dem zu sorglosen Umgang mit der KI.
Ergebnisse werden oft abgeglichen
Die zweite Studie verglich nicht nur Menschen und Technik, sondern untersuchte, wie genau Menschen die Empfehlungen von ChatGPT und Symptom-Checker-Apps in ihre eigenen Entscheidungen einbeziehen. Dabei habe sich gezeigt, dass Nutzer/-innen die Empfehlungen nicht unkritisch übernehmen, sondern mit anderen Quellen wie Internet-Suchen, dem Rat von Freunden oder weiteren Apps abgleichen. „Auf der anderen Seite gibt es auch Fälle, in denen Patientinnen/Patienten zu viele und teils unverständliche Informationen von den digitalen Tools bekommen, die sie nicht einordnen können. Das erzeugt Angst und sie suchen dann den Expertenrat in der Notaufnahme oder beim Hausarzt – auch bei harmlosen Beschwerden, so wie es ihnen ChatGPT empfiehlt“, so Kopka.
Erhöht ChatGPT die Zahl unnötiger Arztbesuche?
Vor einer quantitativen Untersuchung mit 600 Probandinnen und Probanden wurden in der zweiten Studie zunächst 24 Personen bei der Nutzung beobachtet und anschließend ein Modell aufgestellt, wie sie Entscheidungen mit Hilfe von ChatGPT und Apps treffen. Die Auswertung habe erneut ergeben, dass ChatGPT die Selbstversorgung erschwere und die Zahl unnötiger Arztbesuche erhöhe. Demgegenüber könnten gut funktionierende Symptom-Checker-Apps dazu beitragen, dass Nutzer/-innen sich in passenden Fällen für die Selbstversorgung entschieden und so zur Entlastung des Gesundheitssystems beitrugen. „ChatGPT hat viele sinnvolle Anwendungsfälle, aber zur Entscheidung, ob ich zum Arzt gehen sollte, ist es nicht geeignet – dafür ist es viel zu ungenau“, resümiert Kopka. „Wir sollten uns eher fragen, ob eine App uns hilft, gute Entscheidungen zu treffen, statt von ihr Perfektion zu erwarten. Denn Menschen treffen bereits jetzt in den meisten Fällen sichere und vernünftige Entscheidungen. In einigen Situationen können sie jedoch von den Apps profitieren.“
Einsatz von KI in der Notaufnahme sinnvoll
Eine andere Studie hat gezeigt, dass KI, wenn sie richtig eingesetzt wird, auch zur Entlastung von Notaufnahmen z.B. bei Verdacht auf Herzinfarkt führen kann. Nur etwa 5-25 % der Menschen, die mit den Symptomen eines akuten Herzinfarkts in der Notaufnahme untersucht werden, haben am Ende tatsächlich einen Herzinfarkt. Die Behandlung muss dann im Falle eines Herzinfarkts schnell erfolgen. Gerade in ländlichen Regionen mit weiten Wegen bis zum nächsten Krankenhaus mit spezialisierter Herzinfarktversorgung ist es wichtig, möglichst frühzeitig einen Herzinfarkt zu bestätigen oder auszuschließen. Üblicherweise geschieht dies mit einer Kombination aus klinischen Symptomen, Elektrokardiogramm (EKG) und bestimmten Laborwerten, vor allem dem Troponin I. Der Laborwert Troponin I kann heute innerhalb von Minuten mit einem hochsensitiven Schnelltest (Point-of-Care-Test, POCT) bestimmt werden, ohne dass dafür eine Blutprobe zeitaufwändig in ein Labor transportiert und dort analysiert werden muss. Dr. Betül Toprak und ihre Arbeitsgruppe haben in einer retrospektiven Analyse von Daten aus zwei großen Beobachtungsstudien bei Patienten, die sich mit Brustschmerzen in einer Notaufnahme in den USA sowie in Australien vorgestellt hatten, nachgewiesen, dass sich mit einem KI-Algorithmus sicher, schnell und effizient ein Herzinfarkt ausschließen lässt – schneller als mit bisherigen Diagnoseverfahren. „Perspektivisch betrachtet kann der Einsatz von KI in Kombination mit dem Schnelltest zu einer Entlastung der Notaufnahmen der Krankenhäuser beitragen“, betont Professor Dr. Thorsten Dill, Chefarzt der Klinik für Innere Medizin und Kardiologie, Sana Krankenhaus Benrath, Sana Kliniken Düsseldorf GmbH bei der Preisvergabe an Dr. Toprak, die den neuen Forschungspreis „Digitale Innovationen in der Herzmedizin“ der Deutschen Herzstiftung und der Sektion eCardiology der Deutschen Gesellschaft für Kardiologie (DGK) erhalten hat. „Der Algorithmus berechnet eine individuelle Herzinfarktwahrscheinlichkeit basierend auf dem Ergebnis eines einzigen hochsensitiven Troponin-POC-Tests in Kombination mit acht weiteren Variablen wie z.B. Alter, Geschlecht, Zeit seit Symptombeginn, EKG-Veränderungen“, erläuterte Dr. Toprak. In der Studie ARTEMIS (Artificial Intelligence in Suspected Myocardial Infarction Study) waren insgesamt Daten von 2.560 Patienten ausgewertet worden. „Der ARTEMIS-POC-Algorithmus ermöglichte einen direkten Herzinfarktausschluss bei 899 Patienten (35,1 %) mit einer Sicherheit von 99,96 %“, ergänzte die Forscherin.
Quellen: idw/TU Berlin, Deutsche Herzstiftung
Artikel teilen