
Wie medizinische Texte für KI-Modelle nutzbar gemacht werden | 5 Fragen an… Marie-Sophie Polifka und Sarina Shams, Annotatorinnen im GeMTeX-Projekt
Der Einsatz von Sprachmodellen und künstlicher Intelligenz (KI) ist in vielen Fachbereichen bereits Berufsalltag. Auch Ärztinnen und Ärzte könnten davon profitieren – doch angepasste Sprachmodelle für die Medizin benötigen umfangreiche Datensätze in deutscher Sprache.
Im Projekt GeMTeX soll eines der größten verfügbaren Korpora medizinischer Texte in deutscher Sprache entstehen. Hierfür werden unstrukturierte Texte aus der klinischen Dokumentation datenschutzkonform für die Forschung und KI-Anwendungen erschlossen. Eine entscheidende Rolle spielt dabei die Annotation durch studentische Hilfskräfte: Sie markieren relevante Textstellen in medizinischen Dokumenten und versehen sie mit Metadaten zum Inhalt, sodass die Texte maschinenlesbar werden. Im Interview geben die Medizinstudentinnen Marie-Sophie Polifka und Sarina Shams einen Einblick in ihre Arbeit als Annotatorinnen am Standort Leipzig und verraten, was sie aus dem Projekt für ihren künftigen Berufsweg mitnehmen.
Wie läuft Ihre Arbeit als Annotatorin für GeMTeX im Konkreten ab?
Marie-Sophie Polifka: Wir lesen eine große Anzahl unterschiedlicher medizinischer Texte wie Arztbriefe oder Befundberichte. In einem ersten Schritt haben wir darin enthaltene personenbezogene Daten, also Informationen, die Rückschlüsse auf Identitäten ermöglichen könnten, unkenntlich gemacht, damit die Dokumente für die Weiterbearbeitung genutzt werden können. Diesen Prozess bezeichnen wir als De-Identifikation.
Im nächsten Schritt, der aktuell noch vorbereitet wird, markieren wir in den Texten konkrete medizinische Inhalte wie Symptome, Diagnosen und Untersuchungen.
Sarina Shams: Für die Annotation nutzen wir eine Software, die uns die Möglichkeit gibt, die Informationen aus dem Text in Kategorien einzuordnen. Das Ziel ist, die Daten aus den Dokumenten so zunächst maschinenlesbar zu machen. Im Anschluss können diese rein medizinischen Informationen für Forschungszwecke und die Entwicklung von KI-Modellen genutzt werden.
Was finden Sie an dieser Arbeit herausfordernd?
Marie-Sophie Polifka: Bei der Bearbeitung stoßen wir immer wieder auf Uneindeutigkeiten. Etwa, wenn bestimmte Inhalte nicht eindeutig den vorgesehenen Kategorien zugeordnet werden können. Das liegt oft daran, dass solche Sonderfälle in den Leitfäden noch nicht berücksichtigt sind. In solchen Fällen stimmen wir uns im Team oder auch mit anderen Arbeitsgruppen ab, bevor das Dokument abgeschlossen wird.
Persönlich schwierig finde ich auch die Verwendung medizinischer Abkürzungen in den Texten, die mir noch nicht geläufig sind. Dann muss Google weiterhelfen.
Sarina Shams: Manchmal ist es nicht einfach zu erkennen, ob bestimmte Informationen identifizierend sein können, selbst wenn sie nur indirekt im Text erschienen. Manche Erkrankungen stehen im Zusammenhang mit bestimmten Berufen. Teilweise gibt es in den Dokumenten dann Abschnitte, die detailliert beschreiben, welche Beschwerden in unterschiedlichen Situationen aus dem Berufsleben vorkommen. Da können wir nicht einfach nur den „Beruf“ markieren, da Beruf und Symptome im Text miteinander verwoben sind. Diese Fälle besprechen wir im Team. Ob das dann de-identifiziert werden muss, ist fallabhängig.
Eine zusätzliche Herausforderung sind komplexe Texte, da Deutsch nicht meine Muttersprache ist. Manche Texte muss ich deshalb mehrmals durchlesen. Zum Glück ist mein Team für mich da, wenn ich sprachliche Fragen habe.
Auf welche neuen oder unerwarteten Erkenntnisse sind Sie während Ihrer Tätigkeit gestoßen?
Sarina Shams: Mir wurde deutlich, wie unterschiedlich medizinische Dokumentation ausfällt – jede Ärztin, jeder Arzt und jede Klinik formuliert anders. Das ist ein Problem, wenn wir medizinische Dokumente für die Automatisierung und KI nutzen möchten. Durch GeMTeX habe ich gelernt, wie wichtig eine klare und einheitliche Sprache in der Dokumentation ist – etwas, das ich auch später in meinem Berufsalltag umsetzen möchte.
Marie-Sophie Polifka: In fast jedem Gruppentreffen stoßen wir auf neue Sonderfälle, die wir in unsere Leitfäden aufnehmen müssen. Viele davon wären mir allein vermutlich gar nicht aufgefallen. Das hat mir gezeigt, wie wichtig das Mehraugenprinzip bei dieser Art von Arbeit ist.
Inwiefern wird diese Erfahrung Ihnen in Ihrem zukünftigen Beruf helfen?
Marie-Sophie Polifka: Ein großer Teil der Stationsarbeit besteht für Ärztinnen und Ärzte darin, die Krankengeschichte ihrer Patientinnen und Patienten im Arztbrief niederzuschreiben, damit auch zukünftige Behandlerinnen und Behandler darüber informiert sind. Im Studium bekommen wir kaum vermittelt, wie man einen ordentlichen Arztbrief formuliert – das passiert höchstens in den Klinikpraktika außerhalb der Uni. Mit dem Start ins Berufsleben wird jedoch von uns erwartet, dieser Aufgabe gerecht zu werden. Insofern ist es sehr hilfreich, einen Einblick in eine große Anzahl an Arztbriefen zu bekommen.
Sarina Shams: Ich habe im GeMTeX-Projekt gelernt präzise zu lesen, zu verstehen und kritisch zu hinterfragen. Das hilft natürlich nicht nur beim Arztbriefe schreiben. Auch später in der Kommunikation mit Kolleginnen und Kollegen werde ich verstehen: Wir haben vielleicht einen unterschiedlichen Sprachstil, aber meinen das Gleiche. Außerdem habe ich ein Gefühl dafür bekommen, wie wichtig eine hohe Datenqualität für die Forschung und digitale Anwendungen in der Medizin ist.
Das GeMeTeX-Projekt kann die medizinische Forschung vorantreiben, weil…
Sarina Shams: …es hilft, große Mengen an medizinischen Textdaten strukturiert und datenschutzkonform nutzbar zu machen. Das ist eine wichtige Grundlage für die Entwicklung von KI-Anwendungen, die Ärztinnen und Ärzte im Alltag entlasten können.
Marie-Sophie Polifka: …bestimmte Automatisierungsprozesse in der Medizin gebraucht werden, damit Ärztinnen und Ärzte wieder mehr Zeit haben, sich auf ihre Patientinnen und Patienten zu konzentrieren.