Doc ChatGPT: vorsichtige Empfehlungen
Was kann das schmerzende Knie bedeuten? Es zieht links im Rücken, welche Ursachen kann ein ziehender Schmerz haben? Viele klären medizinische Fragen zunächst mit der KI, bevor sie einen Arzt oder eine Ärztin aufsuchen. Modelle wie ChatGPT haben sich über die Jahre weiterentwickelt, doch wie steht es um die Qualität der medizinischen Ersteinschätzung in der Weiterentwicklung der KI-Modelle? Eine aktuelle Studie untersuchte, wie verlässlich die Empfehlungen von Modellen wie ChatGPT Health sind.
Selbstversorgung oder ärztliche Abklärung?
Genauer wurde untersucht, wie ChatGPT gesundheitliche Beschwerden einordnet, wie sich die Leistung im Laufer der Zeit verändert hat und ob identische Eingaben die gleichen Ergebnisse erzeugen. Getestet wurden alle Modelle, die über die Zeit verfügbar waren, also eine erstmalige längsschnittliche Analyse der KI-Modelle. Denn News, dass die KI-Modelle ärztliche Zulassungsprüfungen bestehen, erwecken den Eindruck, dass sie auch im Test an Patientinnen und Patienten zuverlässige Ergebnisse liefern. Doch das Ergebnis ist ernüchternd.
Denn seit der dritten Modellversion scheint die Genauigkeit nicht mehr anzusteigen. Für die Analyse testeten die Forschenden 22 Modellversionen an insgesamt 45 Patientenfällen. Diese Fälle wurden insgesamt pro Modell 10 Mal eingegeben, wodurch 9.900 Einzelbewertungen entstanden. Zu den Symptomen zählten „eine kurzfristige Überlastung von Sehnen/Bändern am Vortag“ oder auch einfache Verdauungsprobleme/Durchfall seit einem Tag ohne weitere Beschwerden“. Die KI sollte entscheiden, ob es sich um einen Notfall handelt, man es ärztlich abklären lassen sollte oder selbst behandeln kann.
Keine Verbesserung in neueren Modellen
Während sich die Einschätzung gegenüber den ersten Modellversuchen noch deutlich verbesserte, fehlte ein solcher Anstieg ab dem dritten Modell. Das beste getestete Modell erreichte eine Treffergenauigkeit von 74 Prozent. Behandlungsbedürftige Krankheitsfälle erkannten die Modelle am sichersten, wohingegen die meisten Fehler bei Fällen der Selbstversorgung auftraten. Von den 13 Selbstversorgungsfällen konnte keine KI alle erkennen. Zu oft riet die KI zur ärztlichen Abklärung, obwohl Selbstversorgung reichte – sie entschieden zu vorsichtig.
Die Forschenden bezeichnen dies als konservatives Triagierungsverhalten. Somit bedeuten die besseren Test- oder Wissensergebnisse nicht unbedingt einen höheren Nutzen für die Praxis. „Entscheidend ist aus unserer Sicht nicht nur, ob ein Modell einzelne Fälle richtig einordnet, sondern welchen praktischen Nutzen die Empfehlungen im Alltag tatsächlich haben. Wenn ein System bei sehr vielen Beschwerden vorsorglich zur medizinischen Abklärung rät, wirkt das zunächst sicher für Nutzer/-innen – es bietet aber faktisch keine echte Entscheidungshilfe mehr, wenn die Empfehlung fast immer gleich ausfällt“, ordnet Dr. Marvin Kopka, Erstautor, die Ergebnisse ein.
Starke Schwankungen
Ein weiteres Problem war, dass die Modelle nicht konsistent antworten. Es kam teils zu deutlichen Schwankungen trotz identischer Eingabe. Deutlich zeigte sich dies bei GPT5: in 42 Prozent der Fälle schwankten die Empfehlungen bei mehrfacher Eingabe desselben Fallbeispiels. Die Genauigkeit ließ sich verbessern, wenn man aus den Antworten zum gleichen Fall diejenige wählt mit der geringsten Dringlichkeitsstufe. Doch das ist nicht praktikabel, da dadurch echte Notfälle übersehen werden können.
„Das Potenzial großer Sprachmodelle sehen wir deshalb derzeit weniger in einer Nutzung im Chatfenster der Hersteller als in einer sinnvollen Integration in qualitätsgesicherten Anwendungen, also in Symptom-Checker-Apps. Dort könnten sie helfen, Informationen verständlich aufzubereiten, Empfehlungen zu erläutern und Menschen besser durch bestehende Versorgungswege zu lotsen – vorausgesetzt, die medizinische Qualitätssicherung erfolgt im Hintergrund“, erläutert Kopka.
Quelle: idw
Artikel teilen




