GeMTeX – German Medical Text Corpus
Medizinische Texte für die Forschung automatisiert erschließen
Im klinischen Alltag fallen große Mengen an Texten wie Arztbriefe oder Befunde an, die für die Versorgung und die Forschung wertvolle Informationen zum Hintergrund, Verlauf und der Behandlung von Krankheiten enthalten. Programme zur automatischen Verarbeitung natürlicher Sprache (engl. Natural Language Processing, kurz: NLP) könnten auf Basis dieser Texte die Arbeit von Ärztinnen und Ärzten sowie Forschenden unterstützen. Wegen fehlender Standardisierung medizinischer Freitexte kann das Potenzial dieses Datenschatzes jedoch nicht voll ausgeschöpft werden. Die Struktur und Sprache klinischer Aufzeichnungen hängen stark von Personen ab, die sie verfassen. Zudem unterscheidet sich die medizinische Sprache sehr von der alltäglichen und wissenschaftlichen Ausdrucksweise. Klinische Texte zeichnen sich durch Fachjargon, Prägnanz und Sprachökonomie aus, werden unter Zeitdruck geschrieben, sind lückenhaft kodiert und wenig strukturiert.
Hier setzt die Methodenplattform GeMTeX ein: Sechs Datenintegrationszentren aus den vier Medizininformatik-Konsortien DIFUTURE, HiGHmed, MIRACUM und SMITH steuern Daten und Methodiken bei, um medizinische Texte aus der Patientenversorgung für Forschungsprojekte verfügbar zu machen. Damit soll das größte medizinische Textkorpus in deutscher Sprache entstehen. Die Geschäftsstelle des SMITH-Konsortiums koordiniert das Projekt. Die Arbeiten in GeMTeX bauen auf den methodischen Anwendungsfall PheP/NLP auf, der durch das SMITH-Konsortium vom 01.01.2018 – 31.05.2023 realisiert wurde.