Eine neue Studie zeigt, dass KI-Modelle die diagnostische Genauigkeit in manchen Bereichen verbessern können. Doch nicht jede Form der Künstlichen Intelligenz ist für Ärzt:innen gleich hilfreich.
Große Sprachmodelle wie ChatGPT werden zunehmend als Unterstützung in der Medizin diskutiert. Sie können Informationen zusammenfassen, Diagnosen vorschlagen und ihre Einschätzungen verständlich begründen. Welche Form dieser KI-Unterstützung Ärzt:innentatsächlich hilft, war bislang jedoch unklar.
Ein Forschungsteam der LMU München, des LMU Klinikums, des Karlsruher Instituts für Technologie und der Universität Bayreuth untersuchte nun, wie unterschiedliche KI-Erklärungen die diagnostische Genauigkeit in der Radiologie beeinflussen. In einem randomisierten Experiment beurteilten 101 Radiolog:innen reale klinische Fälle anhand radiologischer Bilder und sollten jeweils eine Diagnose als Freitext formulieren.
Die Teilnehmenden wurden vier Gruppen zugeteilt: Eine arbeitete ohne KI-Unterstützung, drei weitere erhielten unterschiedliche Hinweise eines multimodalen Sprachmodells – entweder nur eine Diagnose, eine Differentialdiagnose oder eine schrittweise „Chain-of-Thought“-Erklärung. Letztere erläuterte Bildmerkmale, klinische Hinweise und Ausschlusskriterien nachvollziehbar.
Das Ergebnis: Mit Schritt-für-Schritt-Erklärungen erzielten Radiolog:innen die höchste diagnostische Genauigkeit. Die Trefferquote lag 12,2 Prozentpunkte über jener der Kontrollgruppe ohne KI. Einfache Diagnosevorschläge und Differentialdiagnosen schnitten schlechter ab. Gerade bei fehlerhaften KI-Vorschlägen folgten Teilnehmende der Differentialdiagnose häufiger, was auf Automationsbias hindeutet. Schrittweise KI-Erklärungen halfen dagegen eher dabei, Fehler zu erkennen.
Die Studie fokussiert zwar auf die Radiologie, die Erkenntnisse daraus reichen aber weit darüber hinaus, betont Stefan Feuerriegel, Professor an der LMU Munich School of Management und korrespondierender Autor der Studie: „Wer nicht nur nach einer Antwort fragt, sondern auch nach einer nachvollziehbaren Begründung, kann solche Systeme deutlich besser nutzen.“ Entscheidend sei daher nicht nur die Qualität der Diagnose, sondern auch die Art der Erklärung. (APA/tab)
Service: Publikation