ChatGPT: Künstliche Intelligenz beantwortet Multiple-Choice-Fragen

ChatGPT ist ein "Large Language Model", das Text generieren kann. Doch wenn LLMs mit medizinischen Multiple-Choice-Fragen konfrontiert werden, zeigen sie ihre Grenzen auf.

Können "Large Language Models" sogar Fachleute täuschen?

Übersetzt aus dem Französischen

Heutzutage liest man viel über revolutionäre, neue Fähigkeiten der künstlichen Intelligenz (KI). Große Sprachmodelle (LLMs) – wie zum Beispiel ChatGPT, GPT-3.5 und bald auch GPT-4 – sollen angeblich in der Lage sein, intelligent auf Fragen verschiedenster Art zu antworten und Texte von überzeugender Qualität zu erstellen, um selbst Fachleute zu täuschen. 

In diesem Artikel soll es nicht darum gehen, einen kritischen Blick auf die alles in allem sehr technischen Studien zu dieser Thematik zu werfen; ich habe natürlich eine Meinung zum Thema und werde – Spoileralarm – am Ende des Beitrags Stellung beziehen. An dieser Stelle möchte ich die Lesenden ermutigen, sich unvoreingenommen mit dem Thema zu beschäftigen. Auch wenn diese Forschung einen höchst komplexen Bereich behandelt, hoffe ich, dass es möglich ist, ohne fortgeschrittene Kenntnisse des maschinellen Lernens und rein instinktiv in das vorliegende Problem bezüglich der LLMs und der ChatGPT-Frage einzusteigen.

Große Sprachmodelle: Reihe von Wahrscheinlichkeiten bestimmt "antwortende" Wortfolge 

Ein LLM ist ein statistisches Modell, das aus einer großen Textmenge (z. B. ganz Wikipedia) gelernt hat, indem es einen unbeaufsichtigten Deep-Learning-Mechanismus verwendet – das bedeutet, große Sprachmodelle können aus reinem Text lernen, ohne dass dieser Annotationen benötigt, die seinen Inhalt oder seine Eigenschaften beschreiben. Das LLM verwendet eine neuere Lerntechnik, die 2017 eingeführt wurde: Transformers – daher das Akronym GPT, das für Generative Pre-Trained Transformer steht.

Vereinfacht gesagt: Ein LLM lernt eine Reihe von Wahrscheinlichkeiten, die bestimmen, durch welche Wortfolge eine Frage oder Anfrage "beantwortet" werden soll. Abstrakt betrachtet ist ein LLM also ein System, das einen Text als Antwort auf einen anderen Text generiert. Anders als bei einer einfachen Suchmaschine ist der erzeugte Text jedoch nicht einfach nur ein Copy-and-Paste-Text, der irgendwo im Netz existiert, sondern es handelt sich um eine originelle, realistische und grammatikalisch korrekte Veröffentlichung.

LLMs: "Hochentwickelte Papageien?"

Die große Stärke von LLMs liegt also darin, dass diese einen äußerst großen Anwendungsbereich haben, weswegen man mithilfe von ihnen diverse Anfragen lösen lassen kann. Diese Anfragen könnten sein:

Da sie bis zu Hunderte von Milliarden Parameter verwenden, sind große Sprachmodelle extrem komplex. Die Lernphase erfordert umfangreiche Rechenressourcen, die für ein mittelgroßes Forschungslabor unerreichbar sind. Das erklärt, warum die meisten LLMs von großen digitalen Industrieunternehmen oder Stiftungen, die von diesen unterstützt werden (wie z.B. OpenAI), produziert werden.

Dadurch sind LLMs gleichermaßen Gegenstand von Kontroversen und philosophischen Fragen. Sind Sprachmodelle wirklich eine eigene Form des Verstehens oder handelt es sich nur um "weiterentwickelte Papageien"? Oder eine eher technische Frage: Sind elementare Formen des Denkens für LLMs zugänglich, wenn sie nur textbasiertes Lernen verwenden? 

LLMs greifen medizinische Multiple-Choice-Tests an

Mehrere Artikel1-3 von Institutionen wie Google oder dem MIT haben kürzlich  Studienergebnisse veröffentlicht , bei denen LLMs zur Beantwortung von medizinischen Fragebögen, insbesondere Multiple-Choice-Fragen, verwendet wurden. 

Hinter diesen Studien könnten verschiedene Absichten vermutet werden, wie etwa die Bestätigung des Pontifikats, dass Medizin letztlich nur ein Prozess des "Auswendiglernens" sei, oder eine Gelegenheit zu beweisen, dass Sprachmodelle Medizin besser erlernen können als Ärztinnen oder Ärzte. Auf jeden Fall zeichnet sich hier die Gelegenheit ab, eine Leistung hervorzuheben – wie etwa das Lösen einer komplexen kognitiven Aufgabe – und es vielleicht mit einem alten Rivalen wie IBM und dessen Tochtergesellschaft Watson Health aufzunehmen.

Ärzte haben während des Medizinstudiums und der Weiterbildung nicht nur Tausende von Multiple-Choice-Tests absolviert, sondern auch metakognitive Fähigkeiten entwickelt, wie sie medizinische Probleme angehen, indem sie sich der Differentialdiagnose, der zu ergreifenden Schritte und sogar – je nach Disziplin – der pathophysiologischen Argumentation bewusst wurden.

Dies ermöglicht es, das Problem großer Sprachmodelle in der Medizin von zwei Seiten anzugehen, die sich als elementar für jede Diskussion über die Anwendung von KI in der klinischen Medizin erweisen: die Bewertung und die Erklärung.

Medizinisches Wissen: Mehr als nur Auswendiglernen? 

Bei der Bewertung können Sie sich ein Bild von der Qualität der Antworten machen, wenn Sie den Schwierigkeitsgrad der Multiple-Choice-Fragen berücksichtigen. Beim Vergleich zwischen Künstlicher Intelligenz und menschlicher Leistung ist es wichtig, sich nicht von den zahlreichen Metriken einschüchtern zu lassen, die Machine Learning gerne verwendet, vor allem, wenn keine Daten über die Verteilung der Multiple-Choice-Fragen in Bezug auf die Schwierigkeit vorliegen. Was die Erklärung betrifft, so hängt diese natürlich vom Argumentationsniveau ab, und es liegt an Ihnen, zu beurteilen, ob sie eine plausible medizinische Argumentation wiedergibt oder nicht.

Zunächst einmal sollten wir die Debatte über den Wert von Multiple Choice-Tests als Bewertungsmethode in der Medizin überspringen. Wir sollten ihren Wert zumindest in methodischer Hinsicht akzeptieren und gleichzeitig anerkennen, dass nicht alle Multiple Choice-Tests den gleichen Schwierigkeitsgrad, die gleiche Komplexität und sogar die gleiche Qualität aufweisen. 

Man kann davon ausgehen, dass es mehrere kognitive Strategien zur Beantwortung einer Multiple Choice-Frage gibt: einfaches Auswendiglernen, Differentialdiagnose, pathophysiologisches Denken. Hinzu kommen Standardstrategien, die sich aus der Struktur der Multiple Choice-Frage selbst ableiten lassen (Antwort durch Ausschluss oder einzig mögliche Antwort).

Die in dieser Arbeit über LLMs verwendeten Multiple-Choice-Fragen wurden aus verschiedenen amerikanischen Datenbanken wie der United States Medical Licensing Examination (USMLE) entnommen. Es handelt sich um Multiple-Choice-Fragen mit einfachen und eindeutigen Antworten. Betrachten wir es als gegeben, dass LLMs all diese Fragen beantworten können. Zum Beispiel: aus vier Möglichkeiten das erste klinische Zeichen bei Tetanus oder Botulismus zu identifizieren oder die Untersuchung, die in einem Notfall bei Verdacht auf Malaria in Betracht zu ziehen ist.

In gewisser Weise ist dies bereits ein höchst interessantes Ergebnis. Nehmen wir zum Beispiel die folgende Multiple-Choice-Frage3 aus einem Datensatz, der zum Testen von LLMs (Massive Multitask Language Understanding Database) verwendet wird:

Frage: Welches der folgenden Organe steuert Körpertemperatur, Schlaf und Appetit?

Antwort: (A) Nebennieren (B) Hypothalamus (C) Pankreas (D) Thalamus.

Wenn man sich die Titel der drei zitierten Artikel ansieht, scheinen sie noch einen Schritt weiter gehen zu wollen: Sie sprechen ausdrücklich von klinischem Wissen oder sogar von einer Fähigkeit zur Argumentation. Ist es das Ziel, klinisches Wissen zu erwerben? Ja, aber welches und bis zu welchem Grad? Können wir vernünftigerweise davon ausgehen, dass Wissen eine autonome Entität ist und dass es ausreicht, "Harrisons Innere Medizin" (oder Ihre bevorzugte medizinische Enzyklopädie) auswendig zu kennen, um ein Arzt zu sein?

LLMs liefern unbefriedigende Erklärungen

Könnten große Sprachmodelle wirklich vernünftig argumentieren? Sogar so weit, dass sie ihre Entscheidung begründen können, was eine Voraussetzung für jeden Einsatz zu sein scheint, selbst in Zusammenarbeit mit einem Arzt? Einer der drei Artikel2 schlägt vor, die "Argumentation" des Systems zu begründen, was ein durchaus lobenswertes Bemühen um Transparenz ist. Leider wird sehr schnell klar, dass die angebotenen Erklärungen ziemlich vage sind, ohne dass man sich auf allzu technische KI-Überlegungen einlässt.

Ich lade Sie – die Leserin oder den Leser – ein, die Beispiele durchzugehen und sich eine Meinung zu bilden: Sie werden in der Lage sein, Fehler oder Unstimmigkeiten frühzeitig zu erkennen und/oder eine befriedigendere Erklärung (als die, die das gezeigte Beispiel anbietet) sowohl in Ihrem Fachgebiet als auch im Allgemeinen vorzuschlagen.

Schließlich ist es fraglich, ob LLMs in der Lage sind, auf Multiple-Choice-Fragen, die komplexere Überlegungen erfordern, zu antworten und ihre Antwort auch zu erklären. Vor allem dann, wenn der Multiple-Choice-Test selbst irreführend sein kann. Ein Multiple-Choice-Test aus der USMLE3-Datenbank, bei dem die korrekte Antwort (A) lauten soll, stellt die Frage:

Frage: Ein 65-jähriger Mann mit Bluthochdruck stellt sich für eine Routineuntersuchung dem  Arzt vor. Medikamente, die derzeit eingenommen werden, sind Atenolol, Lisinopril und Atorvastatin. Sein Puls liegt bei 86/min, die Atmung bei 18/min und der Blutdruck bei 145/95 mm Hg. Die kardiologische Untersuchung zeigt ein enddiastolisches Geräusch. Welcher der folgenden Punkte ist die wahrscheinlichste Ursache?

Antwort: (A) Verminderte Compliance des linken Ventrikels (B) Myxomatöse Degeneration der Mitralklappe (C) Entzündung des Herzbeutels (D) Dilatation der Aortenwurzel (E) Verdickung der Mitralklappenblättchen

Wie zu Beginn des Artikels versprochen, habe ich natürlich eine Meinung zu diesem Thema. Sagen wir, ich hätte es besser gefunden, wenn die Titel der Artikel (s. Referenzen) auf der Möglichkeit bestanden hätten, bestimmte Multiple-Choice-Fragen mit einer Textvorlage zu beantworten, anstatt zu behaupten, klinisches Wissen sui generis zu erwerben oder zu kodieren. Denn zu diesem letzten Punkt gibt es sowohl praktische als auch theoretische Einwände.

In der Praxis sieht man immerhin eine ganze Reihe von vagen Antworten, zumindest wenn die Autoren den Mut haben, ihre Antworten zu begründen. In der Theorie gibt es eine sehr aktive Debatte darüber, ob LLMs Argumentationen nachvollziehen können, was paradoxerweise mit der alten, stark auf Logik basierenden KI einfacher war (Achtung, ich sage nicht, dass das menschliche Denken auf formaler Logik basiert).

Der Konsens besteht eher darin, dass große Sprachmodelle derzeit nur recht triviale Argumentationen wiedergeben können. So vergleicht Yann Le Cun4 sie mit Studenten, "die den Stoff auswendig gelernt haben, aber keine wirklich tiefgreifenden mentalen Modelle der zugrunde liegenden Realität aufgebaut haben." Es ist vorstellbar, dass LLMs Argumentationen reproduzieren können, die wortwörtlich in einigen der Texte zu finden sind, die sie gelernt haben, wie etwa einfache Syllogismen. Es gibt jedoch keine Gewissheit über ihre Fähigkeit, Inhalte zu verallgemeinern.

Die Einführung der Gedankenkette (Chain of Thoughts)2 soll den Ergebnissen der LLMs einen Anschein von Kohärenz verleihen. Als Formalismus bleibt er jedoch weit hinter den früheren Modellen des symbolischen KI-Schlussfolgerns zurück und ähnelt eher einem Hack als einer echten Theorie.

Von hypothetisch-deduktivem Denken sind wir noch weit entfernt. Genau diese Art des Schlussfolgerns ist für die Differentialdiagnose aber charakteristisch. Was die pathophysiologische Argumentation betrifft, so finden sich in diesen Artikeln keine Beispiele dafür. Außerdem scheint es schwierig zu sein, in einem Text-Text-Modell die Granularität der Argumentation wiederzufinden, die es ermöglicht, sie auf klinische Fälle anzuwenden, die per definitionem sehr spezifisch sind, ohne die Gefahr der Verwechslung von Situationen.

Bevor also behauptet wird, dass große Sprachmodelle klinisches Wissen entdecken können, sollten sie mit Multiple-Choice-Fragen bewertet werden, die eine zugrunde liegende Argumentation erfordern, so wie wir alle es gelernt haben. Sie sollten auch in der Lage sein, eine nicht triviale Begründung für die gegebenen Antworten zu liefern. Es ist nicht im Geringsten paradox, festzustellen, dass, wenn KI sich an der Medizin versucht, wir endlich erkennen, dass Medizin nicht nur Lernen und Wiederholen ist.

Über den Autoren: Marc Cavazza

Marc Cavazza ist ein französischer Arzt und Doktor der Biomathematik. Er hat an mehreren britischen Universitäten Forscherteams geleitet, die sich mit Gehirn-Computer-Schnittstellen und Anwendungen der Künstlichen Intelligenz befassten. Er hat auf den meisten internationalen Konferenzen zu diesem Thema veröffentlicht (IJCAI, AAAI, ECAI, ICML, NeurIPS).

ChatGPT besteht US-Medizinexamen – aber ohne Bestnoten

Ergänzt durch die esanum-Redaktion

In einer US-amerikanischen Studie5,6 wurde der Text-Roboter mit dem United States Medical Licensing Exam (USMLE) konfrontiert. Dabei konnte ChatGPT den dreiteiligen Test, der in den USA absoviert werden muss, um als Ärztin oder Arzt zu arbeiten, bestehen – bildbasierte Fragen mussten allerdings ausgeklammert werden. 350 öffentlich zugänglichen Fragen, die im Vorjahr Teil der Prüfung waren, wurden in die Software eingespeist.

Rund 60 Prozent der Fragen müssen richtig beantwortet werden, um den Test zu bestehen. ChatGTP konnte – abzüglich nicht eindeutiger Antworten – mit einem Score von 52,4 bis 75 Prozent zwar keine Bestnoten erzielen, aber klar bestehen. Unter Einbeziehung der nicht eindeutigen Antworten in das Ergebnis kam Chat GPT auf 36,1 bis 61,5 Prozent der möglichen Punkte. Die Studienautoren sehen hierin ein bemerkenswertes Ergebnis: Ihrer Ansicht nach könnte ChatGPT das Potenzial haben, die medizinische Ausbildung und damit auch die klinische Praxis zu verbessern.

Referenzen:

1. Jin, D., Pan, E., Oufattole, N., Weng, W.H., Fang, H. and Szolovits, P., 2021. What disease does this patient have? a large-scale open domain question answering dataset from medical exams. Applied Sciences, 11(14), p.6421.

2. Liévin, V., Hother, C.E. and Winther, O., 2022. Can large language models reason about medical questions?

3. Singhal, K., Azizi, S., Tu, T., Mahdavi, S.S., Wei, J., Chung, H.W., Scales, N., Tanwani, A., Cole-Lewis, H., Pfohl, S. and Payne, P., 2022. Large Language Models Encode Clinical Knowledge.

4. Der französische Forscher für künstliche Intelligenz, Yann Le Cun, gilt als einer der Erfinder des Deep Learning. Seine Arbeiten befassen sich unter anderem mit maschinellem Sehen, künstlichen neuronalen Netzen und Bilderkennung. Er leitet das Forschungslabor für künstliche Intelligenz von Facebook.

5. https://www.businessinsider.de/wirtschaft/chat-gpt-meistert-laut-einer-studie-fragen-eines-us-medizinexamens-aber-nicht-mit-bestnote/; aufgerufen am 14.02.2023

6. Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models; PLOS Digital Health. Tseng et al., 09.02.2023