Klinische Dokumente standardisieren: Das neue Kerndatensatz-Modul „Dokument“
Die computergestützte Auswertung klinischer Texte wie Entlassbriefe oder Operationsberichte gewinnt durch Fortschritte in den Bereichen der natürlichen Sprachverarbeitung (NLP) und der großen Sprachmodelle (LLM) zunehmend an Bedeutung für die medizinische Forschung. Um diese unstrukturierten Daten institutionsübergreifend nutzbar zu machen, wurde im Rahmen der Medizininformatik-Initiative (MII) das Kerndatensatz-Modul Dokument entwickelt. Das Modul dient dazu, die Verbindung zwischen den eigentlichen Textinhalten und ihren beschreibenden Metadaten formalisiert abzubilden.
Technische Grundlagen und Kompatibilität
Technisch basiert es auf dem internationalen Standard HL7 FHIR (Fast Healthcare Interoperability Resources), konkret auf der Ressource DocumentReference. Bei der Modellierung wurde eine hohe Kompatibilität mit bereits etablierten deutschen Standards angestrebt, insbesondere mit den Modellen der Kassenärztlichen Bundesvereinigung (KBV) sowie den ISiK-Vorgaben der Gematik. Während diese Primärsysteme vorrangig die Versorgung und den Datenaustausch mit Krankenhausinformationssystemen unterstützen, liegt der Fokus des KDS-Moduls Dokument gezielt auf der sekundären Nutzung in der Forschung.
Struktur und Besonderheiten des Moduls
Für die einheitliche Klassifizierung von Dokumenten wird die Verwendung der Klinischen Dokumentenklassen-Liste (KDL) empfohlen. Die anderen KDS Module wie „Person“ und „Fall“ sichern den medizinischen Kontext des Dokuments ab. Eine Besonderheit ist die integrierte NLP-Status-Erweiterung, die den Verarbeitungsstatus eines Dokuments – etwa ob es bereits de-identifiziert oder annotiert wurde – präzise dokumentiert.
Entwicklung und Governance
Der Entwicklungsprozess wurde durch ein interdisziplinäres Expertenteam vorangetrieben und durch die Taskforce Kerndatensatz sowie die Arbeitsgruppe Interoperabilität der MII koordiniert. Für die technische Umsetzung kamen Werkzeuge wie FHIR Shorthand (FSH) zum Einsatz, um die Profile formal zu definieren und in einem Implementation Guide auf der Plattform „Simplifier“ für Nutzerinnen und Nutzer zu veröffentlichen.
Projektübergreifende Zusammenarbeit
Maßgeblich vorangetrieben wurde das Modul durch Anforderungen aus dem Projekt GeMTeX (German Medical Text Corpus). Das Projekt verfolgt das Ziel, ein deutschlandweites Textkorpus aus der klinischen Routine aufzubauen. Dabei arbeiteten Akteure aus verschiedenen Kontexten zusammen, unter anderem mit Unterstützung durch das Projekt MiHUBx (Medical Informatics Hub in Saxony – seit Januar 2026 „MiHUB“), um die Interoperabilität zwischen den Standorten zu stärken. Auch Synergien mit Projekten des Netzwerks Universitätsmedizin (NUM) fließen in die langfristige Harmonisierung der Datenstrukturen ein.
Bedeutung für die Forschungsinfrastruktur
Für die Datenintegrationszentren (DIZ) und die Forschung hat das Modul eine zentrale Bedeutung, da es das Fundament für die Bereitstellung von Textdaten über das Forschungsportal Gesundheit (FDPG) bildet. Wissenschaftlerinnen und Wissenschaftler können dadurch gezielte Abfragen nach Patientenkollektiven stellen, für die spezifische Dokumenttypen in einem definierten Bearbeitungszustand vorliegen und eine Datenausleitung beantragen.
Am 28.05. stellt Jakob Faller (Universitätsklinikum Erlangen) die Entwicklung des Moduls auf der Medical Informatics Europe (MIE)-Konferenz in Genua vor. Sein Beitrag ist Teil der der Session „Infrastructures and Regulations“ von 08.30 – 10 Uhr.
Text: Dr. Frank Meineke | Institut für Medizinische Informatik, Statistik und Epidemiologe, Universität Leipzig, Medizinische Fakultät