Gruppenfoto der Teilnehmenden des GeMTeX-Plenarmeeting
Teilnehmende des GeMTeX-Plenarmeetings © SMITH-Geschäftsstelle

Fortschritte bei der Erschließung klinischer Texte für Forschung und KI

GeMTeX LLM-Workshop und Plenarmeeting am 22./23. Juni 2026

In unstrukturierten klinischen Dokumenten wie Arzt- und Entlassbriefen steckt ein enormer Datenschatz für die medizinische Forschung. Diese wertvollen Daten sicher und datenschutzkonform für die Forschung und Anwendungen künstlicher Intelligenz (KI) nutzbar zu machen, ist ein Ziel des GeMTeX-Projektes der Medizininformatik-Initiative (MII)

Am 22. und 23. Juni 2026 kamen GeMTeX-Projektmitarbeitende am TUM Klinikum rechts der Isar zu einem internen Large Language Model (LLM)-Workshop und einem Plenarmeeting zusammen.

Finale Phase des GeMTeX-Projektes wird vorbereitet

Im Mittelpunkt des Plenarmeetings stand der aktuelle Projektfortschritt und die Vorbereitung der finalen Arbeitsphase. Justin Hofenbitzer (TUM Klinikum rechts der Isar) stellte einen zentralen Meilenstein vor: Mehr als 1.000 klinische Dokumente aus sechs Universitätskliniken wurden inzwischen semantisch annotiert. Im Rahmen der Annotationsarbeiten kennzeichnen angehende Medizinerinnen und Mediziner relevante Informationen in klinischen Dokumenten und versehen sie mit Metadaten, sodass die Texte maschinenlesbar werden. Diese hochwertigen Datensätze bilden die Grundlage für die Forschung und die Entwicklung neuer Verfahren der medizinischen Sprachverarbeitung.

Veröffentlichung des GeMTeX-Textkorpus rückt näher

Wesentliche Fortschritte gab es zudem auf technischer Ebene: Jakob Faller (Universitätsklinikum Erlangen) präsentierte das neue Kerndatensatz (KDS)-Modul Dokument, das gemeinsam mit dem Digitalen FortschrittsHub MiHUB entwickelt wurde. Das KDS-Modul ermöglicht es, in GeMTeX erschlossene Textdokumente aus den Datenintegrationszentren an das Forschungsportal für Gesundheit (FDPG) anzubinden. Sowohl de-identifizierte als auch semantisch annotierte Dokumente können dadurch künftig standardisiert für Forschung und Klinik bereitgestellt werden. Erste Ergebnisse dieser Entwicklungen wurden bereits auf den internationalen Fachkonferenzen Language Resources and Evaluation Conference (LREC) und Medical Informatics Europe (MIE) präsentiert.

Darüber hinaus plant das GeMTeX-Team in Zusammenarbeit mit der Deutschen Zentralbibliothek für Medizin (ZBMED) einen ersten prototypischen Anwendungsfall. Das Ethikvotum hierfür liegt bereits vor, alle sechs beteiligten Universitätskliniken haben ihre Zustimmung über die jeweiligen Use-and-Access-Committees erteilt. Damit kann das im Projekt aufgebaute Textkorpus künftig unter festgelegten Voraussetzungen für wissenschaftliche Forschungsvorhaben beantragt und genutzt werden.

LLM-Workshop zeigte Nutzungsmöglichkeiten von KI-Sprachmodellen für die Medizin

Am Vortag hatten die Projektmitarbeitenden auf einem internen GeMTeX LLM-Workshop aktuelle Forschungsarbeiten und Praxisbeispiele rund um die Verarbeitung klinischer Dokumente mithilfe von LLMs diskutiert. LLMs sind KI-gestützte Sprachmodelle, die aus umfangreichen Textdaten lernen und beispielsweise für die Generierung eigenständiger Texte eingesetzt werden können.

Im Mittelpunkt des LLM-Workshops standen unter anderem folgende Themen:

  • Verfahren zur De-Identifikation sensibler Informationen
  • Die automatisierte Erkennung klinischer Entitäten
  • Der Vergleich synthetisch erzeugter und authentischer Anamnesedialoge
  • Die strukturierte Aufbereitung medizinischer Leitlinien
  • Der Einsatz LLM-gestützter Software in der Forschung


Auf der Veranstaltung wurde deutlich, dass Sprachmodelle inzwischen das Potenzial besitzen, zahlreiche Aufgaben der klinischen Textverarbeitung zu unterstützen. Zugleich sind eine sorgfältige wissenschaftliche Evaluation und datenschutzgerechte Rahmenbedingungen zwingend notwendig – beides Voraussetzungen, die im GeMTeX-Projekt geschaffen werden.

Das GeMTeX-Abschlussmeeting findet am 20. Oktober 2026 in der Albertina Bibliothek der Universität Leipzig statt.

Kürzlich erschienene Publikationen:

Jakob Faller, Marcel Susky, Noemi Deppenwiese, Justin Hofenbitzer, Christina Lohr, Thomas Ganslandt, Martin Boeker, Frank Meineke. Standardized Information Model for Clinical Texts: The MII Core Data Set Module Document. Stud Health Technol Inform. 2026 May 21;336:1202-1206. DOI: 10.3233/SHTI260389.

Christina Lohr, Marvin Seiferling, Philipp Wiesenbach, Jakob Faller, Christoph Dieterich. The SURROGATOR Framework for Context-Aware Surrogation of Privacy Sensitive Information in Medical Text. Stud Health Technol Inform. 2026 May 21;336:1405-1409. DOI: 10.3233/SHTI260440. [Slides] [Code SURROGATOR] [Code Evaluation]

Justin Hofenbitzer, Christina Lohr, Andrea Riedel, Rebekka Kiser, Aliaksandra Shutsko, Abanoub Abdelmalak, Peter Klügl, Jutta Romberg, Sarah Riepenhausen, Miriam Schechner, Jakob Faller, Frank Meineke, Luise Modersohn, Markus Löffler, Juliane Fluck, Udo Hahn, Stefan Schulz, Martin Boeker. Developing the German Medical Text Corpus (GeMTeX): Legal Compliance and Semantic Enrichment. In Proceedings of the Fifteenth Language Resources and Evaluation Conference (LREC 2026) (pp. 1571–1584). European Language Resources Association (ELRA). DOI: 10.63317/4eqiegnqbu96.