„Wir müssen eine gemeinsame Sprache finden“: GeMTeX_MII macht‘s möglich | 5 Fragen an… Christina Lohr und Luise Modersohn zum Projektstart
Medizinische Texte aus der Routineversorgung enthalten eine Vielzahl komplexer Daten wie Krankheitsverläufe, Diagnosen und Therapien, die sehr nützlich für die Forschung und Patientenversorgung sein können. Allerdings unterscheiden sich Texte aus der klinischen Dokumentation zwischen Einrichtungen in Struktur und Inhalt häufig sehr stark. Deshalb können sie nur schwer für die automatische Verarbeitung natürlicher Sprache genutzt werden, die wiederum die Grundlage für sämtliche Automatisierungsprozesse und Analysen bildet. Das am 1. Juni gestartete Projekt „German Medical Text Corpus“ (GeMTeX) möchte hier Abhilfe schaffen. Die Methodenplattform der Medizininformatik-Initiative (MII) bereitet eine große Anzahl medizinischer Texte aus verschiedenen Fachgebieten so auf, dass sie für den Aufbau automatisierter Sprachmodelle verwendet werden können. Dazu werden die Texte mit Hilfe von definierten Vorgaben inhaltlich markiert und maschinenlesbar kodiert. Personenbezogene Informationen werden dabei in einem mehrstufigen Prozess unkenntlich gemacht. Auf diese Weise soll der größte standardisierte Datensatz pseudonymisierter medizinischer Texte in deutscher Sprache entstehen, der standortübergreifend für die Forschung und Patientenversorgung genutzt werden kann.
Christina Lohr und Luise Modersohn sind wissenschaftliche Mitarbeiterinnen im GeMTeX-Projekt und promovieren derzeit im Bereich der Computerlinguistik. Im Interview sprechen sie darüber, welchen Herausforderungen sie bei der Erstellung des GeMTeX-Textkorpus begegnet sind und wie Forschung und Klinik die standardisierte Textsammlung künftig nutzen können.
Sie beide beschäftigen sich bereits seit langer Zeit mit Computerlinguistik und automatischer Sprachverarbeitung. Was fasziniert Sie an diesem Thema?
Christina Lohr: Zum einen fasziniert mich, dass Sprache sehr vielfältig sein kann und es unheimlich viele Möglichkeiten gibt, Sachverhalte darzustellen. Zum Beispiel wie im medizinischen Kontext Diagnosen beschrieben werden können.
Dadurch, dass sich Sprache permanent ändert und regelmäßig neue Krankheitsbilder entstehen, müssen wir regelmäßig lernen, wie man damit umgeht und vorhandene Systeme aktualisiert. Solche komplexen Herausforderungen mit klinischen Inhalten haben mich schon mein ganzes Leben fasziniert, deshalb beiße ich mir gerne die Zähne daran aus.
Luise Modersohn: Das war bei mir ähnlich. Ich bin ein ziemlicher Rätsel-Freak. Bei Rätseln suchen wir immer die optimale Lösung für ein Problem. Sprache wird tagtäglich genutzt. Eigentlich müssten demnach alle Ahnung davon haben! Dann fällt aber auf, dass manche Dinge mit der Sprache die wir alle nutzen nicht allgemein darstellbar sind. Wir stellen fest: Es funktioniert für bestimmte Fälle, aber dann gibt es diese und jene Ausnahmen. An Sprache fasziniert mich, dass sie lebt, sich ständig verändert und gleichzeitig voller Mehrdeutigkeiten ist. Ich bin ein großer Fan von Wortspielen. Dass ein Begriff mehrere Bedeutungen haben kann und Wortspiele möglich sind, finde ich unglaublich cool. Wenn man aus dem Feld der Informatik kommt, fragt man sich: Wie lässt sich so etwas verallgemeinern? Das geht nicht wirklich aber irgendwie schon. Deswegen fasziniert mich Sprachverarbeitung.
Inwiefern kann ein annotiertes Korpus medizinischer Texte die klinische Forschung und Patientenversorgung unterstützen?
Luise Modersohn: Da gibt es etwas, das man da immer antworten kann, nämlich: Es ist wichtig, dass Dinge vergleichbar sind und dass wir sie standardisieren. Das liegt zum einen natürlich daran, dass wir aktuell immer mehr automatisieren. Zum Beispiel Google, Facebook und andere Firmen entwickeln immer mehr Sprachverarbeitungs- und KI-Tools. Sie alle entwickeln aber Programme für den allgemeinen Gebrauch. Kliniksprache unterscheidet sich jedoch in vielen Dingen von der allgemeinen Sprache, wie ein Dialekt. Mit GeMTeX oder einem annotierten Korpus können wir bestimmte Performancewerte unabhängig prüfen und müssen nicht auf die Angaben der Hersteller vertrauen. Das hat dementsprechend einen Einfluss auf die Patientenversorgung, weil ich denke, dass die Automatisierung auch dort zunehmen wird. Wir müssen deshalb darauf achten, dass durch die Standardisierung für die Sicherheit der Daten und damit des Patientenwohls gesorgt wird. Aber die Lücke zwischen GeMTeX und der direkten Patientenversorgung ist doch relativ groß. Den Nutzen hat eher die Forschung.
Christina Lohr: Wir haben eine Menge Anbieter zur automatisierten Diagnosecodierung auf dem Markt, die teilweise nicht öffentlich evaluiert sind. Diese Anbieter sind aber ausschlaggebend dafür, was abgerechnet wird und setzen Tools mit Sprachdatenverarbeitung ein, die in einer Black Box im Hintergrund läuft. Für die Wissenschaftlerinnen und Wissenschaftler oder das Krankenhauspersonal ist aber nicht nachvollziehbar, wie die Black Box funktioniert oder wie gut die Leistungen auf gewissen Datensätzen wirklich sind. Mit GeMTeX haben wir die Möglichkeit, einen Goldstandard zu schaffen um Leistungen der automatischen Sprachverarbeitung vergleichbar zu machen. Was den Nutzen für die Forschung angeht:Auf dem annotierten GeMTeX-Korpus werden Folgeprojekte aufbauen, die beispielsweise erforschen, inwiefern sprachmodulgestützte Dokumentationssoftware Ärztinnen und Ärzte oder Pflegepersonal wirklich entlasten kann. Während der Behandlung könnte über eine Sprachsteuerung direkt dokumentiert werden, während im Hintergrund GeMTeX-Sprachmodelle laufen. Das wäre ein Idealzustand.
Luise Modersohn: ChatGPT ist inzwischen in aller Munde. Solch ein Modell oder ein ähnliches KÖNNTE später auf den GeMTeX-Daten lokal genutzt werden, um zum Beispiel bei der Generierung von Arztbriefen zu unterstützen. Oder es KÖNNTE ein medizinischer Chatbot ähnlich wie ChatGPT entwickelt werden für Patientinnen und Patienten im Krankenhaus, die Fragen oder Probleme haben. KÖNNTE, weil leider die Entwicklung ebendieser Sprachmodelle sehr viele Daten braucht. Wir werden deshalb niemals an so etwas wie Google herankommen. Aber das ist gar nicht unser Ziel. Hier geht es um medizinisches Wissen, also eine relativ abgeschlossene Domäne. Wenn wir die Sicherheitsbedenken adressiert und gelöst haben, wäre eine sprachgesteuerte KI-Assistenz eine potenzielle Anwendung, für die wir dann das GeMTeX-Korpus benutzen können.
Christina Lohr: Man darf nicht vergessen, dass für den Betrieb von solchen Systemen eine ganze Menge von Daten verfügbar sein müssen. Für den klinischen Kontext sind sie es zwar, aber sie dürfen nicht genutzt werden oder sie sind nicht in einem Zustand, in dem man sie verwenden kann.
Damit kommen wir zum Thema Annotation von klinischen Texten. Vereinzelte Textstellen werden dabei nach bestimmten Vorgaben inhaltlich markiert. Diese Markierungen helfen dabei, die Texte für den Aufbau von Sprachmodellen für Anwendungen Künstlicher Intelligenz zu nutzen. Welche Herausforderungen gibt es bei der Annotation von medizinischen Texten?
Christina Lohr: Die größte Herausforderung besteht darin, diesen Prozess zu organisieren. Wir haben an der Friedrich-Schiller-Universität Jena am Lehrstuhl für Computerlinguistik in Kooperation mit dem Uniklinikum Jena einen Textdatensatz annotiert. Eine Gruppe von Medizinstudierenden hat nach bestimmten Vorgaben Texte für uns gelesen und Passagen markiert. Dadurch, dass wir vor fünf, sechs Jahren fast bei null angefangen haben und es für die deutsche Sprache nur wenig Vorarbeiten gibt, mussten wir die Annotationsvorgaben teilweise selbst neu aufsetzen und entwickeln. Am Ende hatten wir Annotationsleitfäden mit Beispielen und Gegenbeispielen oder haben Kategoriensysteme aus dem Annotationszyklus herausgenommen, weil wir gemerkt hatten, dass die kognitive Anstrengung bei der Bearbeitung von Texten zunimmt, je mehr Anforderungen es gibt. Das kann ein halbes bis ein Jahr dauern, bis wir überhaupt wissen, wie die Anforderungen detailliert aussehen.
Luise Modersohn: Am Ende läuft es auf Kommunikation hinaus. Wir als Informatikerinnen und Informatiker haben uns überlegt, welche Begriffe uns interessieren und wie wir sie definieren. Für diejenigen, die aus der Informatik kamen, war es auch vollkommen logisch, wie wir formuliert haben. Dann haben wir unsere Definitionen Medizinstudierenden gegeben. Die guckten uns an und sagten: „Nee, so nicht!“ Wir mussten erst eine gemeinsame Sprache finden. Das war reine Kommunikationsarbeit. Wir mussten uns fragen: Wovon sprechen wir? Was versteht ihr darunter? Was verstehen wir darunter? Was möchten wir ausdrücken? Durch den Dialog zwischen uns Informatikerinnen und Informatikern und den Medizinstudierenden konnten wir uns dann auf eine gemeinsame Sprache verständigen. Das hat weniger mit Medizin oder Informatik zu tun als mit Kommunikation. Es ist Sprache, und zwar im philosophischen Sinne.
Christina Lohr: Um ein Beispiel für Fallstricke, die uns begegnet sind, zu nennen:Wir wussten lange nicht, wie wir mit doppelter Verneinung umgehen sollen oder mit Verneinungen aus linguistischer beziehungsweise pathologischer Sicht.
Luise Modersohn: Ein Positiv-Befund muss nicht positiv sein. Also: Jemanden zu gratulieren, weil er positiv auf HIV getestet wurde, ist ziemlich gemein. Es ist etwas Negatives, was aber positiv formuliert ist. Auch Abkürzungen sind ganz großartig.
Christina Lohr: Oder wenn ein Laborbefund mit „ohne Befund“ befunden wird.
Luise Modersohn: Oder fünf Zeilen Text und das Endergebnis heißt: „Wir haben nichts gefunden.“
Christina Lohr: Wir haben viel darüber diskutiert, wie man mit solchen Situationen umgeht.
Wahnsinn, auf was für Feinheiten man in so einem Projekt stößt! Noch einmal zurück zu GeMTeX: Welche Engpässe bisheriger Sprachmodelle kann die Methodenplattform GeMTeX lösen?
Christina Lohr: GeMTeXstellt Forschungsdaten für die Verarbeitung deutscher medizinischer Sprache zur Verfügung. Es gibt zwar verfügbare Datensätze, die sind aber oft nur für wissenschaftliche Zwecke und unter Auflagen nutzbar. Teilweise können wissenschaftliche Textdatensätze in der Medizin lediglich an den Standorten selbst im Kontext eines ganz bestimmten Projekts verwendet werden. Diese Lücke, die dadurch entsteht, kann GeMTeX schließen. Ganz wichtig: GeMTeX baut auf der breiten Patienteneinwilligung der Medizininformatik-Initiative auf. Das heißt, wir dürfen die pseudonymisierten Texte, wenn wir die Einwilligung eingeholt haben, genau für solche Zwecke nutzen.
Luise Modersohn: Es läuft letztendlich wieder auf die Standardisierung hinaus. Inzwischen ist interdisziplinäre Forschung derzeit zurecht sehr beliebt. Früher gab’s nur ein paar einzelne interessierte Computerlinguistinnen und -linguisten, die sich der Automatisierung angenommen haben. So hatte jede und jeder in seinem Krankenhaus eine kleine Sammlung von Texten, die nicht herausgegeben werden durfte – sie wurden für eigene kleine Auswertungen verwendet. Das ist alles schön und gut. Ein Problem ist aber, dass wir inzwischen schon bei ein und derselben Briefgattung, z. B. Entlassbriefen, Unterschiede zwischen Kliniken und sogar einzelnen Personen haben. Wenn man nur eine ganz kleine Menge an Daten hat, funktionieren Analysen auf den eigenen Daten zwar sehr gut, aber man hatte nie die Möglichkeit, es einmal im großen Kontext auszuprobieren.
Bitte beenden Sie folgenden Satz: Das GeMTeX-Projekt ist eine Bereicherung für die deutsche Forschungslandschaft, weil…
Christina Lohr: …wir mit unseren Sprachmodellen Software für die klinische Dokumentation entwickeln können, die Ärztinnen und Ärzte entlasten kann.
Luise Modersohn: …jetzt nicht mehr einzelne Forscherinnen und Forscher an ihrer kleineren oder größeren Arbeit sitzen, sondern sich das geballte Wissen aus den klinischen Standorten in Deutschland an einem Projekt beteiligen kann.