Entlastung ja, Dokumentationsqualität noch nicht

Ambient-AI-Scribes sollen Ärzt:innen von Dokumentationsarbeit entlasten. Eine aktuelle Studie in den Annals of Internal Medicine zeigt jedoch: In fünf standardisierten Primärversorgungsszenarien schnitten KI-generierte Dokumentationen schlechter ab als von Menschen erstellte — besonders bei Vollständigkeit, Struktur und klinischer Nützlichkeit.
KI-gestützte Schreibassistenten gelten als eine der vielversprechendsten Anwendungen Künstlicher Intelligenz im ärztlichen Alltag: Sie hören bei Konsultationen mit, strukturieren das Gespräch und erstellen daraus klinische Notizen. Das Ziel ist klar: weniger Dokumentationslast, mehr Zeit für Patient:innen. Doch wie gut ist die Qualität dieser automatisch erstellten Dokumentation tatsächlich?

Dieser Frage ging ein amerikanisches Forschungsteam der Veterans Health Administration nach. Verglichen wurden klinische Notizen aus fünf standardisierten Primärversorgungsszenarien — darunter Erstkontakt, akuter Kreuzschmerz, Brustschmerz, pharmazeutisches Gespräch und ein Kontakt mit einer Pflegekraft. Aus Audioaufnahmen dieser Fälle erstellten 11 verschiedene Ambient-AI-Scribe-Tools sowie 18 menschliche Notizenersteller:innen klinische Dokumentationen. Anschließend bewerteten 30 verblindete Rater:innen die Qualität der Notizen mit dem modifizierten Physician Documentation Quality Instrument, PDQI-9, das zehn Qualitätsdomänen umfasst und maximal 50 Punkte erlaubt.

Mensch schlägt Maschine
Das Ergebnis fiel deutlich zugunsten der menschlichen Dokumentation aus. Über alle fünf Fälle hinweg erzielten menschlich erstellte Notizen höhere PDQI-9-Gesamtwerte als KI-generierte Notizen. Besonders groß war der Unterschied beim Fall „akuter Kreuzschmerz“: Menschliche Notizen erreichten im Mittel 43,8 Punkte, KI-Notizen 20,3 Punkte. Auch in der gepoolten Analyse lagen die KI-Systeme in allen zehn Qualitätsdomänen zurück. Die größten Defizite zeigten sich bei Vollständigkeit, Organisation und Nützlichkeit der Dokumentation.
Für die Praxis bedeutet das nicht, dass Ambient-AI-Scribes keinen Platz im Gesundheitswesen haben. Im Gegenteil: Sie können ein wichtiges Werkzeug sein, um administrative Belastung zu reduzieren. Die Studie unterstreicht jedoch, dass KI-generierte Notizen derzeit als Entwürfe verstanden werden sollten — nicht als fertige klinische Dokumentation. Ärzt:innen müssen Inhalte weiterhin prüfen, ergänzen und verantworten.

Wichtig ist auch die Einordnung der Limitationen: Die Studie verwendete simulierte Fälle; menschliche Notizen wurden nicht unter denselben realen Zeit- und Arbeitsbelastungen erstellt, wie sie im klinischen Alltag auftreten. Dennoch ist die zentrale Botschaft relevant für Gesundheitseinrichtungen, die KI-Dokumentationssysteme einführen möchten: Vor einem breiten Rollout braucht es weitere unabhängige, herstellerneutrale und fortlaufende Qualitätsprüfungen — insbesondere in Bezug auf Genauigkeit, Vollständigkeit und klinische Verwertbarkeit, so die Autor:innen der Studie.

Quelle: Reddy A. et al. Rapid Evaluation of Artificial Intelligence Technology Used for Ambient Dictation in Primary Care: Comparing the Quality of Documentation of Artificial Intelligence–Generated and Human-Produced Clinical Notes. Annals of Internal Medicine, 2026. DOI: 10.7326/ANNALS-25-02772.