Bereit für die Annotationsarbeiten | 5. GeMTeX-Plenarmeeting am 15. und 16. Mai 2024 in Leipzig

Vor knapp einem Jahr hat das GeMTeX-Projektteam seine Arbeit aufgenommen. In der vergangenen Woche trafen sich mehr als 40 Mitarbeitende in der Albertina Bibliothek der Universität Leipzig, um die bisher erreichten Meilensteine zu diskutieren und die bevorstehenden Annotationsarbeiten zu planen, die am 1. Juni 2024 beginnen sollen.

GeMTeX fokussiert den Aufbau einer Datensammlung mit Texten aus der klinischen Patientenversorgung. Ein wesentlicher Kern des GeMTeX-Projekts sind die Annotationsarbeiten an den Universitätskliniken Charité Berlin, Dresden, Erlangen, Essen, Leipzig und TU München. Dabei werden klinische Texte mit inhaltlichen und strukturellen Metadaten versehen, so dass diese u. a. für das Training von Sprachmodellen genutzt werden können.

Annotationsplattform wurde um zusätzliche Funktionen erweitert

Das GeMTeX-Textkorpus basiert auf Daten, die von Patientinnen und Patienten über den Broad Consent der Medizininformatik-Initiative (MII) für die Forschung freigegeben wurden. „Wir haben einen wichtigen Meilenstein erreicht: Das Datenschutzkonzept und das Studienprotokoll haben ein positives Votum der Ethikkommission der TU München für die Annotationsarbeiten in GeMTeX erhalten,“ sagte Professor Martin Boeker von der TU München und Leiter des Projekts auf dem Plenarmeeting. Um die Texte im Rahmen von GeMTeX nutzen zu können, muss zunächst an jedem Standort ein Datenschutz- und Ethikvotum eingeholt werden. Die anderen Standorte reichen derzeit ihre Anträge bei den zuständigen Ethikkommissionen ein.

Anschließend wurde unter der Moderation von Frank Meineke von der Universität Leipzig der Stand der Technik diskutiert. Das Team der TU Darmstadt hat die Annotationsplattform INCEpTION umfassend erweitert, so können nun beispielsweise Übereinstimmungen in den Annotationsgruppen besser visualisiert werden. Auch die so genannte Kuration der Annotation ist eine wesentliche Erweiterung von INCEpTION. Damit ist es möglich, unterschiedliche Entscheidungen von verschiedenen Annotatorinnen und Annotatoren sichtbar zu machen und sich für die eine oder andere Annotation zu entscheiden.

Erste Standorte arbeiten ihre Hilfskräfte in die Annotationen ein

Den Veranstaltungsblock zur Annotation moderierte Luise Modersohn, wissenschaftliche Projektmanagerin in GeMTeX und Leiterin der Nachwuchsforschungsgruppe DE.xt an der TU München. Im Fokus standen u. a. die ersten Versionen von Richtlinien für eine allgemeine semantische Annotation. Die vier domänenspezifischen Annotationen in Kardiologie, Neurologie, Pharmakologie und Onkologie wurden von den jeweiligen Arbeitsgruppenleitungen Philipp Wiesenbach (Universitätsklinikum Heidelberg), Aliaksandra Shutsko (ZB Med), Annette Härdtlein (LMU Klinikum München) und Florian Borchert (Hasso-Plattner-Institut) vorgestellt.

Darüber hinaus liegen nun Schulungsmaterialen für Annotierende und die Koordination der Annotationsgruppen vor. Diese Sammlung enthält Dokumente mit Arbeitsanweisungen und kurze Videos, etwa zur Einführung in das Werkzeug INCEpTION oder zu Annotationsvorschriften.

An den Standorten Leipzig, Erlangen und Essen studentische Hilfskräfte mit der Markierung der zu anonymisierenden Textpassagen (Deidentifikation) und der Einarbeitung in INCEpTION bereits begonnen. Dabei kommen derzeit frei verfügbare synthetische Texte zum Einsatz, die nicht dem Datenschutz unterliegen und für die Erprobung der Abläufe sehr wichtig sind. Ab Juni beginnt die semantische Annotation von Diagnosen und Medikationen.

Das nächste GeMTeX-Plenarmeeting findet am 26. September online statt.