Über GeMTeX

GeMTeX – German Medical Text Corpus

Medizinische Texte für die Forschung automatisiert erschließen

Im klinischen Alltag fallen große Mengen an Texten wie Arztbriefe oder Befunde an, die für die Versorgung und die Forschung wertvolle Informationen zum Hintergrund, Verlauf und der Behandlung von Krankheiten enthalten. Programme zur automatischen Verarbeitung natürlicher Sprache (engl. Natural Language Processing, kurz: NLP) könnten auf Basis dieser Texte die Arbeit von Ärztinnen und Ärzten sowie Forschenden unterstützen. Wegen fehlender Standardisierung medizinischer Freitexte kann das Potenzial dieses Datenschatzes jedoch nicht voll ausgeschöpft werden. Die Struktur und Sprache klinischer Aufzeichnungen hängen stark von Personen ab, die sie verfassen. Zudem unterscheidet sich die medizinische Sprache sehr von der alltäglichen und wissenschaftlichen Ausdrucksweise. Klinische Texte zeichnen sich durch Fachjargon, Prägnanz und Sprachökonomie aus, werden unter Zeitdruck geschrieben, sind lückenhaft kodiert und wenig strukturiert.

Hier setzt die Methodenplattform GeMTeX ein: Sechs Datenintegrationszentren aus den  vier Medizininformatik-Konsortien DIFUTURE, HiGHmed, MIRACUM und SMITH steuern Daten und Methodiken bei, um medizinische Texte aus der Patientenversorgung für Forschungsprojekte verfügbar zu machen. Damit soll das größte medizinische Textkorpus in deutscher Sprache entstehen. Die Geschäftsstelle des SMITH-Konsortiums koordiniert das Projekt. Die Arbeiten in GeMTeX bauen auf den methodischen Anwendungsfall PheP/NLP auf, der durch das SMITH-Konsortium vom 01.01.2018 – 31.05.2023 realisiert wurde.

Stichpunkte_GeMTeX-(c)gorodenkoff

Use Case GeMTeX

Schaffung einer breiten Datenbasis für medizinische Forschungsprojekte sowie für KI-Modelle mit dem Ziel der klinischen Anwendung

Umfangreiche Annotationen auf diesem Korpus – neben Basisannotationen (z. B. Diagnosen, Medikationen) auch tiefe fachbereichsspezifische Annotationen (u. a. Pathologie, Onkologie, Neurologie, Kardiologie)

Etablierung technischer und organisatorischer Standards für die Abbildung von Texten und Annotationen unter Erweiterung des Kerndatensatzes der MII

Konsortienübergreifendes Projekt der Medizininformatik-Initiative unter Beteiligung von 17 Partnern aus Wissenschaft, IT und Versorgung

Eine große Textsammlung deutschsprachiger medizinischer Texte aus der täglichen Patientenversorgung entsteht

Mit Hilfe von computergestützter Verarbeitung natürlicher Sprache (NLP) können Machine Learning Modelle aufgebaut werden, die Informationen aus klinischen Texten automatisiert sichtbar machen.

Die Nutzung von NLP (Natural Language Processing, NLP) leistet damit die nötige Vorarbeit, damit Textdokumente für die medizinische Forschung verwendet werden können. Der Fortschritt des klinischen NLP wird entscheidend von speziell trainierten Sprachmodellen abhängen, die realistische klinische Dokumente erfordern. Um das volle Potential von NLP auszuschöpfen, ist deshalb der Zugang zu großen Mengen an annotierten Texten aus der täglichen Patientenversorgung notwendig.
Annotierte Texte sind Dokumente, die durch systematische Anmerkungen zusätzliche Informationen enthalten, z. B. Angaben zu Diagnosen oder Medikationen. Die Anmerkungen werden von angehenden Ärztinnen und Ärzten manuell überprüft und dienen damit als Referenz für die weitere Verbesserung der automatischen Annotation. Auf diese Weise strukturierte Informationen können zusammen mit vorliegenden Daten für Analysen sowie den Aufbau von statistischen Modellen verwendet werden.

Die IT-Infrastruktur, die während der Aufbau- und Vernetzungsphase der Medizininformatik-Initiative (MII) zwischen 2018  und 2022 aufgebaut worden ist bietet die Möglichkeit, klinische Dokumente in großem Umfang zugänglich zu machen und sie mit systematischen Anmerkungen anzureichern. Die MII-Methodenplattform GeMTeX strebt damit an, die zwei wesentlichen Engpässe bisheriger Sprachmodelle, Datenzugänglichkeit und Datenannotation, zu lösen.

Mit Einwilligung der Patientinnen und Patienten werden im Rahmen des GeMTeX-Projektes Dokumente aus elektronischen Gesundheitsakten (ePA) der sechs universitätsmedizinischen Standorte München, Leipzig, Essen, Berlin, Dresden und Erlangen gesammelt. Mittels der Verarbeitung natürlicher Sprache werden die Dokumente aufbereitet und in anonymisierter Form für die gemeinsame Nutzung zur Verfügung gestellt. Damit entsteht ein wertvolles Textrepertoire für Forschung und Entwicklung.

Zentrale Strukturen ermöglichen eine breitflächige Anreicherung und Verwendung von klinischen Textdokumenten

GeMTeX wird in der Umsetzung eine zentrale technische und organisatorische Struktur schaffen, um anonymisierte Texte zu sammeln und sie richtlinienkonform zur Anreicherung zu bearbeiten. Damit deckt GeMTeX ein breites Spektrum von Annotationsaufgaben ab. Diese werden erprobt, überprüft und in großem Maßstab angewendet, um eine einzigartige Datenbank zu schaffen. KI-Modelle können damit trainiert und anschließend auf ihre Nützlichkeit im klinischen Alltag überprüft werden. Die angereicherten Textdokumente und die Modelle sollen über die Zentralbibliothek der Medizin (ZBMED) und das DFG-geförderte Projekt NFDI4Health öffentlich zugänglich gemacht werden.

Die Methodenplattform GeMTeX ist am 1. Juni 2023 gestartet und wird durch das Bundesministerium für Bildung und Forschung (BMBF) bis zum 31. August 2026 mit rund sieben Millionen Euro gefördert.

Beteiligte Konsortien der Medizininformatik-Initiative