Der größte Datensatz aus deutschsprachigen medizinischen Texten entsteht | GeMTeX Kick-Off-Meeting in Leipzig

Am 20. und 21. Juni 2023 haben sich rund 40 Mitarbeitende aus dem GeMTeX-Projekt getroffen, um ihre Arbeit an der Methodenplattform der Medizininformatik-Initiative aufzunehmen.

Hauptziel von GeMTeX ist es, Texte aus der klinischen Versorgung wie Entlassbriefe einheitlich so aufzubereiten, dass diese von Programmen automatischer Sprachverarbeitung gelesen und für Anwendungen der Künstlichen Intelligenz als Wissensbasis genutzt werden können. Damit soll aus dem GeMTeX-Projekt der größte Datensatz für die automatisierte Sprachverarbeitung deutschsprachiger klinischer Texte hervorgehen.

Den Kern des Textkorpus bilden die Dokumentbestände der Universitätskliniken Technische Universität München, Essen, Charité Berlin, Erlangen, Dresden und Leipzig. Voraussetzung für den Aufbau der Textsammlung ist, dass die betreffenden Patientinnen und Patienten im Rahmen des Broad Consents der Medizininformatik-Initiative eingewilligt haben, dass ihre klinischen Dokumente für Forschungszwecke genutzt werden dürfen.

„Wir sind ein offenes Projekt und wollen neben der jetzigen Projektkonstellation weitere Gruppen der deutschen Sprachverarbeitung dazu gewinnen“, sagte Professor Martin Boeker, Verbundkoordinator des GeMTeX-Projekts, zur Eröffnung der Veranstaltung. Professor Markus Löffler, Direktor des Instituts für Medizinische Informatik, Statistik und Epidemiologie der Universität Leipzig hat die stellvertretende Verbundkoordination übernommen.

Im Mittelpunkt des Kick Off-Treffens standen das gegenseitige Kennenlernen und der Austausch der beteiligten Akteurinnen und Akteure. Zudem wurden relevante Vorarbeiten zur klinischen Sprachverarbeitung vorgestellt. So hat Florian Borchert vom Hasso-Plattner-Institut beispielsweise das annotierte Textkorpus „GGPOnc“ präsentiert, das aus dem Leitlinienprogramm für Krebserkrankungen in Kooperation mit der Deutschen Krebsgesellschaft entstanden ist.  

Annotation – eine der größten Aufgaben bei GeMTeX

Um medizinische Freitexte aus der klinischen Dokumentation als Textkorpus für Programme automatischer Sprachverarbeitung nutzbar zu machen, müssen sie zunächst annotiert, d. h. inhaltlich markiert werden. Annotationsarbeiten bilden daher den Kern des GeMTeX-Projekts. Dafür werden Medizinstudierende an den sechs beteiligten Standorten nach bestimmten Vorgaben medizinische Dokumente lesen und Passagen in einem Programm markieren.

„Annotation ist eine der größten, wenn nicht die größte Aufgabe bei GeMTeX,“ betonte Luise Modersohn, wissenschaftliche Mitarbeiterin im GeMTeX-Projekt. Sie hat eine Session moderiert, in der Vertreterinnen und Vertreter verschiedener medizinischer Fachgebiete wie Herz-Kreislauf oder Arzneimittelsicherheit ihre Anforderungen an die Annotation erläutert haben.

Darüber hinaus hat Professor Stefan Schulz von der Medizinischen Universität Graz Annotationsrichtlinien vorgestellt, die im EU-Projekt AIDAVA erarbeitet werden. Annotationsrichtlinien liefern Vorgaben für die einheitliche Kodierung von Textstellen in klinischen Dokumenten, damit sie später von Programmen automatischer Sprachverarbeitung gelesen werden können.

Kooperationen für eine produktive Zusammenarbeit

Ein weiterer wichtiger Baustein des GeMTeX-Projekts ist die Software, welche die Annotationsarbeiten stützt. Hierzu hat Dr. Richard Eckart de Castilho, wissenschaftlicher Mitarbeiter an der Technischen Universität Darmstadt, das Annotationswerkzeug „INCEpTION“ präsentiert. Mit INCEpTION werden an allen Standorten die Annotationsarbeiten durchgeführt.

Neben der Wissenschaft und Klinik ist in GeMTeX zudem die Industrie eingebunden. Die Industriepartner Averbis GmbH und ID Information und Dokumentation im Gesundheitswesen GmbH & Co. KGaA haben demonstriert, wie ihre Softwarelösungen wissenschaftliche Studien unterstützen und die Annotation effektiver gestalten können.

Zum Abschluss des Treffens haben die Teilnehmenden darüber diskutiert, wie die GeMTeX-Textkorpora in die Deutsche Zentralbibliothek der Medizin (ZB MED) übergeben werden können, damit sie nach Ende der Projektlaufzeit für Forschung und Versorgung zur Verfügung stehen.

Die erste GeMTeX-Klausurtagung findet am 20. und 21. November 2023 in München statt.