Risiko bei erklärbarer künstlicher Intelligenz

Trügerische Erklärbarkeit in KI-Systemen
lz
© anardaydayATgmalCOM/stock.adobe.com
Newsletter­anmeldung

Bleiben Sie auf dem Laufenden. Der MT-Dialog-Newsletter informiert Sie jede Woche kostenfrei über die wichtigsten Branchen-News, aktuelle Themen und die neusten Stellenangebote.

Formularfelder Newsletteranmeldung

* Pflichtfeld

Forschende warnen vor dem Phänomen des „X-Hacking“, bei dem KI-Systeme zwar korrekte Vorhersagen treffen, aber unterschiedliche Erklärungen dafür liefern, was die Vertrauenswürdigkeit beeinträchtigen kann. Dies ist gerade in der Medizin problematisch.

Erstmals wurde auf der diesjährigen International Conference on Machine Learning (ICML) von einem Forschungsteam des Deutschen Forschungszentrums für Künstliche Intelligenz GmbH (DFKI) eine systematische Analyse des Phänomens „X-Hacking“ vorgestellt. Der Begriff X-Hacking, in Anlehnung an das aus der Statistik bekannte p-Hacking, beschreibt zwei zentrale Mechanismen:

  • Cherry-Picking: Aus einer Vielzahl ähnlich guter Modelle wird gezielt dasjenige ausgewählt, dessen Erklärung das gewünschte Ergebnis am besten unterstützt.
  • Gerichtete Suche: AutoML-Systeme optimieren nicht nur die Vorhersageleistung, sondern finden auch gezielt Modelle mit bestimmten Erklärungsmustern – ein oft unterschätztes Risiko.

Was passiert bei unterschiedlicher Begründung?

Was passiert aber, wenn KI-Systeme zwar korrekte Vorhersagen treffen, aber völlig unterschiedlich begründen, wie sie zu diesem Ergebnis kommen? Können sich User dann nicht einfach diejenige Erklärung aussuchen, die am besten zu ihrem gewünschten Narrativ passt? Genau diese Problematik untersuchte das DFKI-Team um Prof. Sebastian Vollmer (Rahul Sharma, Sumantrak Mukherjee, Andrea Šipka, Eyke Hüllermeier, Sergey Redyuk und David Antony Selby), und identifizierte mit dem Begriff X-Hacking ein strukturelles Risiko für die Vertrauenswürdigkeit von KI. „Die Erklärbarkeit eines Modells kann zur Illusion werden, besonders wenn viele plausible, aber widersprüchliche Modelle zur Auswahl stehen“, sagt Selby, Wissenschaftler im Forschungsbereich Data Science and its Applications am DFKI.

Was bedeutet AutoML? 

AutoML (Automated Machine Learning) steht für automatisierte Verfahren zur Entwicklung, Auswahl und Optimierung von Machine Learning (ML)-Modellen. Dabei übernehmen Softwaretools viele Aufgaben, die zuvor erfahrenen ML-Ingenieurinnen und -Ingenieuren vorbehalten waren: etwa die Wahl geeigneter Modellarchitekturen, Preprocessing-Schritte und Parameter-Tuning. Besonders in datenintensiven Feldern wie Medizin, Industrie oder Sozialforschung versprechen AutoML-Tools schnellere Entwicklung, niedrigere Zugangshürden und reproduzierbare Ergebnisse. Doch gerade diese Automatisierung mache es schwer, die Entstehung von Modellentscheidungen nachzuvollziehen – ein kritischer Punkt bei erklärbarer KI. Zu den bekanntesten AutoML-Frameworks zählen auto-sklearn, Google Cloud AutoML, H2O.ai und Microsoft Azure AutoML.

Reflektierte Nutzung von AutoML angemahnt

Das Problem entsteht, weil sich die sogenannte Feature-Importance – also die Gewichtung von Eingabemerkmalen – drastisch unterscheiden kann, selbst wenn die Modelle nahezu identisch gute Ergebnisse liefern. Besonders sensibel ist das in Anwendungsfeldern wie der medizinischen Forschung oder der Sozialwissenschaft, wo erklärbare Modelle oft die Grundlage für kritische Entscheidungen bilden. „In einer Zeit, in der KI Entscheidungen erklärt, aber nicht immer versteht, müssen wir als Wissenschaft Verantwortung für die Tiefe dieser Erklärungen übernehmen – und für ihre Grenzen“, sagt Prof. Sebastian Vollmer, Leiter des Forschungsbereichs Data Science and its Applications am DFKI. Der KI-Experte nimmt damit Bezug auf die im Kontext der ICML 2025 vorgestellte Studie zu „X-Hacking“, in welcher die Risiken automatisierter Modellwahl offengelegt werden. Vollmer plädiert für reflektierte Nutzung von AutoML in Forschung und Praxis.

Lösung: Ehrliche Erklärbarkeit durch Transparenz

Das DFKI-Team schlägt bewusst keine technischen Kontrollmechanismen vor, sondern eine wissenschaftlich reflektierte Praxis, die auf Transparenz und methodischer Sorgfalt basiert. Folgende Empfehlungen stehen dabei im Mittelpunkt:

  1. Explanation Histograms: Zeigen die Verteilung der Modell-Erklärungen über alle validen Modelle und helfen, Ausreißer sofort zu erkennen.
  2. Vollständige Pipeline-Dokumentation: Offengelegt werden sollte nicht nur das Ergebnis, sondern der gesamte Suchraum an Modellen, Datenvorverarbeitung und Bewertungsmetriken.
  3. Interdisziplinäre Ausbildung: Fachdisziplinen, die AutoML nutzen, sollten sich der methodischen Risiken bewusst sein und nicht nur der Software vertrauen.

„Ziel ist eine Wissenschaftskultur, die nicht nur auf Genauigkeit, sondern auch auf Ehrlichkeit in der Erklärbarkeit setzt“, so Vollmer.

Literatur:
Rahul Sharma, Sumantrak Mukherjee, Andrea Sipka, Eyke Hüllermeier, Sebastian Josef Vollmer, Sergey Redyuk, David Antony Selby: X-Hacking: The Threat of Misguided AutoML. Open Review, 2025.

Konferenzposter: X-Hacking: The Threat of Misguided AutoML.

Quelle: idw/DFKI

Artikel teilen

Online-Angebot der MT im Dialog

Um das Online-Angebot der MT im Dialog uneingeschränkt nutzen zu können, müssen Sie sich einmalig mit Ihrer DVTA-Mitglieds- oder Abonnentennummer registrieren.

Stellen- und Rubrikenmarkt

Möchten Sie eine Anzeige in der MT im Dialog schalten?

Stellenmarkt
Industrieanzeige