© SMITH-Geschäftsstelle

Klinische Texte für Forschung und KI systematisch erschließen | 9. GeMTeX Plenarmeeting am 13.05.25 in Leipzig

Rund 25 Mitarbeitende aus dem GeMTeX-Projekt haben sich letzte Woche in der Albertina Bibliothek der Universität Leipzig getroffen, um sich zum aktuellen Stand der Annotationsarbeiten und der zukünftigen Nutzung des GeMTeX-Textkorpus auszutauschen.

Das Ziel von GeMTeX ist es, medizinische Dokumente wie Arzt- und Entlassbriefe so aufzubereiten, dass sie für die Forschung und für den Einsatz Künstlicher Intelligenz datenschutzgerecht genutzt werden können. Essenziell hierfür ist die Annotation von klinischen Dokumenten. Dazu markieren Medizinstudierende an sechs Klinikstandorten Inhalte aus diesen Dokumenten und versehen sie mit Metadaten.

Richtlinien für die Annotation entwickeln sich mit dem Projekt weiter

Im vergangenen Jahr lag der Fokus zunächst auf der De-Identifikation: Angaben, die Rückschluss auf eine Identität oder Einrichtung geben, z. B. Namen, Orte oder Geburtsdaten wurden anonymisiert und automatisiert durch Pseudonyme ersetzt. Nun beginnt an vielen Partnerstandorten mit der semantischen Annotation der nächste Schritt. Dabei werden medizinische Inhalte wie Diagnosen oder Prozeduren kategorisiert. Damit diese komplexen Annotationen übergreifend vergleichbar bleiben, hat das GeMTeX-Team ausführliche Richtlinien für die semantische Annotation festgelegt, die sich mit dem Projekt laufend weiterentwickeln.

Auf dem Plenarmeeting präsentierte Justin Hofenbitzer, wissenschaftlicher Mitarbeiter an der Technischen Universität München, den aktuellen Stand der semantischen Annotation am Standort München und teilte Erfahrungen sowie Herausforderungen aus der Praxis. In den Annotationsrichtlinien wurden die Regeln für die inhaltliche Annotation anhand der Erfahrungen des Münchner Annotations-Teams konkretisiert, etwa bei der Unterscheidung von Empfehlungen und Indikationen in Arztbriefen.

Erfahrungen Annotationsarbeiten werden erhoben

Ein weiterer Schwerpunkt des Treffens war die Evaluation der Annotationsarbeit. Hierzu stellten Andrea Riedel und Jakob Faller von Universitätsklinikum Erlangen, Christina Lohr von der Universität Leipzig und Justin Hofenbitzer eine Umfrage unter den Annotatorinnen und Annotatoren vor. Sie soll Aufschluss darüber geben, wie viel Zeit die Annotation kostet, wie hilfreich Vorannotationen sind und welchen beruflichen Mehrwert die Humanmedizin-Studierenden im Umgang mit klinischen Texten, die sie sonst im Studium nicht zu lesen bekommen, sehen.

Im Anschluss diskutierten die Teilnehmenden des Plenarmeetings den technischen Stand der Annotationsumgebungen sowie die Software-Lösungen zur Annotation.
Mit Hinblick auf Projektende im August nächsten Jahres beginnt das GeMTeX-Team bereits mit der Planung von Auswertungsprojekten und der Nachnutzung des Textkorpus.

Das nächste GeMTeX-Plenarmeeting findet am 17. September 2025 online statt.

Übrigens: Wie das GeMTeX-Textkorpus nachgebaut werden kann, können Besucherinnen und Besucher der diesjährigen Medical Informatics Europe Konferenz 2025 in Glasgow erfahren. Hier geben am 21. Mai GeMTeX-Verbundkoordinator Prof. Dr. Martin Boeker sowie wissenschaftliche Mitarbeitende Dr. Frank Meineke, Andrea Riedel, Justin Hofenbitzer und Christina Lohr einen Workshop, in dem Teilnehmende beispielhaft Dokumente de-identifizieren und semantisch annotieren können. Weitere Informationen zur EFMI MIE 2025 finden Sie hier.