KI-Tools geben keine zuverlässigen medizinischen Ratschläge

04.04.2024

Künstliche Intelligenz (KI) kann die medizinische Behandlung und Beratung durch Ärzt:innen nicht ersetzen. Zu diesem Schluss kamen Forschende der Cleveland Clinic Foundation. Andrei Brateanu und sein Team hatten 56 Fragen an OpenAIs GPT-4 und Gemini gerichtet. Beides sind multimodale Sprachmodelle, die Text aus Texteingaben und visuellen Eingaben generieren können. Lediglich 28,6 Prozent der Antworten von GPT-4 waren richtig, 28,6 Prozent ungenau und 42,8 Prozent teilweise richtig, aber unvollständig. Auch wenn das Sprachmodell Gemini deutlich besser abgeschnitten hat (53,6 Prozent der Antworten waren richtig, 17,8 Prozent ungenau und 28,6 Prozent teilweise richtig), ist der Anteil der falschen bzw. ungenauen Antworten zu hoch.
„Große Sprachmodelle bieten medizinische Informationen an, die logisch und überzeugend aussehen, auch wenn sie ungenau oder falsch sind. Daher hielten wir es für wichtig, die Antworten von LLMs mit den Daten anerkannter medizinischer Organisationen zu vergleichen. Dieser Vergleich trägt dazu bei, die Zuverlässigkeit der medizinischen Informationen zu überprüfen, indem sie mit vertrauenswürdigen Gesundheitsdaten abgeglichen werden“, erklärt Brateanu.

Den Grund für den hohen Anteil der falschen Antworten sehen die Forschenden in den mathematischen Algorithmen. Die Ergebnisse des Tests zeigen, wie wichtig es sei, bei medizinischen Infos aus KI-Quellen vorsichtig und kritisch zu sein, so Brateanu. Er empfiehlt jedoch dringend, KI-Tools zu entwickeln, die zuverlässige medizinische Ratschläge geben können.

Pressetext