Bildquelle: © Ro Ma | Pixabay.com

Projekt im Rahmen von SMITH hilft, medizinische Texte für die automatische Analyse nutzbar zu machen

In der Routineversorgung entstehen große Mengen medizinischer Texte, die wertvolle Informationen über Patientinnen und Patienten enthalten. Allerdings können sich Formulierungen, Inhalte sowie Struktur der medizinischen Dokumentationen zwischen verschiedenen Einrichtungen stark unterscheiden und sind somit nicht standortübergreifend für digitale Programme oder Analysen nutzbar. Im SMITH-Konsortium hat sich das NLP-Projekt diesem Problem angenommen und Richtlinien für die Aufbereitung medizinischer Texte veröffentlicht, sodass sie mit Methoden automatischer Sprachverarbeitung (Natural Language Processing, kurz: NLP) für die medizinische Forschung und Versorgung verwendet werden können.

In allen deutschen Krankenhäusern werden bei Verlegung und Entlassung Arztbriefe geschrieben, die den weiterbehandelnden Ärzten Informationen über die jeweiligen Patientinnen und Patienten liefern. Diese Arztbriefe sind ein wesentlicher Bestandteil der medizinischen Dokumentation und beinhalten Informationen über den Grund der Behandlung, Angaben zur Krankheitsgeschichte, Allergien, Vorerkrankungen, Familiendiagnosen, bereits durchgeführte Therapien, bisher verordnete Medikationen und auch Hinweise zur Weiterbehandlung. Informationen dieser Art können nicht nur für die behandelnden Ärztinnen und Ärzte, sondern auch für die medizinische Forschung sowie für die Patientinnen und Patienten selbst von großem Nutzen sein.  

Damit diese Texte aus der medizinischen Dokumentation standortübergreifend genutzt werden können, müssen sie für digitale Programme lesbar sein. Die Formulierungen in medizinischen Texten sind jedoch stark abhängig von der Einrichtung, dem medizinischen Fachgebiet und auch von der Person, die sie verfasst. Zudem sind sie in ihrer Form weder strukturell noch inhaltlich reglementiert. Eine automatisierte Erfassung von Details in Texten wie Arzt- und Entlassbriefen, zum Beispiel Beschreibungen von Arzneien, deren Einnahmehäufigkeit (täglich, dreimal am Tag) oder Vergabeform (als Tablette, Tropfen) ist daher ohne vorherige Aufbereitung somit kaum möglich.

Automatisierte Methoden der Textanalyse können die Inhalte solcher Texte sowohl für technische Informationssysteme als auch für behandelnde Ärztinnen und Ärzte sowie Patientinnen und Patienten nutzbar machen. Voraussetzung dafür ist allerdings, dass solche NLP-Systeme auf ausreichendes Textmaterial zugreifen können, um automatische Analysen zu ermöglichen.

Mit Hilfe spezieller Computerprogramme, so genannter Annotationswerkzeuge wie Brat oder INCEpTION, werden Textstellen von geschultem Personal in manuellen Schritten nach bestimmten inhaltlichen Vorgaben markiert. Diese Markierungen, auch Annotationen genannt, enthalten Hinweise auf die Struktur und den Inhalt der Texte und bilden die Grundlage für statistische Modelle, auf denen moderne NLP-Systeme ihre Analysen aufbauen. Die Erstellung solcher Annotationen wird durch Annotationsleitlinien geregelt. Im Rahmen der ersten Förderphase der Medizininformatik-Initiative (MII) wurden mehrere solcher Leitlinien zur Annotation deutschsprachiger Entlassbriefe erarbeitet. Sie konzentrieren sich auf folgende Aufgabenbereiche:

1. Strukturen von Textpassagen, die darüber informieren, ob eine Textpassage z.B. eine Anrede, Anamnese oder die Gabe einer Medikation bezeichnet oder den Verlauf des Krankenhausaufenthaltes beschreibt [1]

2. Personenidentifizierende Merkmale bzw. alle Beschreibungen, die Rückschlüsse auf einen individuellen Patienten erlauben, und somit aus Gründen des Datenschutzes nachfolgend anonymisiert werden müssen [2] (zum Beispiel Personennamen, Adressdaten oder Datumsangaben)

3. Beschreibungen von zentralen inhaltlichen medizinischen Kategorien wie Diagnosen, Symptomen und Befunden [3];

4. Beschreibungen von Medikationen mit deren Dosierung (z.B. 50 mg, 1/2 Tablette), Häufigkeit (z.B. drei Mal täglich), Modus (Beispiel: oral bzw. durch den Mund), Dauer und Grund [4];

5. Zusätzliche inhaltliche medizinische Kategorien (z.B. Beschreibungen von anatomischen Lokalitäten, medizinischen Tests und Prozeduren, Behandlungsmethoden) und deren Relationen, die diese Kategorien zueinander in Beziehung setzen;

6. Zeitliche Bezüge zwischen Kategorien und ihren Beziehungen – alle Angaben von Zeitpunkten und zum Ablauf von klinischen Ereignissen – mit dem Ziel, die im Arztbrief enthaltenen Informationen automatisiert auf einen Zeitstrahl abbilden zu können;

7. Beschreibungen der Sicherheit bzw. Unsicherheit und des Ausschlusses (Negation) von Aussagen, zum Beispiel ob eine Diagnose verdachtsweise formuliert oder gänzlich ausgeschlossen wird.

Die ersten vier dieser sieben Annotationsrichtlinien wurden nun zum Abschluss der ersten Phase der MII bereits veröffentlicht. Diese können als Startpunkt für das konsortiumsübergreifende Projekt German Medical Textcorpus (GeMTeX) genutzt werden. GeMTeX startet im Juni 2023 und baut an sechs Universitätskliniken (Leipzig, TU München, Essen, Berlin, Dresden und Erlangen) einen deutschen klinischen Referenzdatensatz auf.

Quelle: Matthies et al. Annotationsleitlinien für deutschsprachige Medizintexte. Teil 4: Annotation von Medikationsgaben, S. 15
_______________

[1] Annotationsleitlinie: https://doi.org/10.5281/zenodo.7707756 / Publikation: Christina Lohr, Stephanie Luther, Franz Matthies, Luise Modersohn, Danny Ammon, Kutaiba Saleh, Andreas G. Henkel, Michael Kiehntopf, and Udo Hahn: CDA-Compliant Section Annotation of German-Language Discharge Summaries: Guideline Development, Annotation Campaign, Section Classification. In: AMIA Annual Symposium Proceedings 2018, San Francisco, USA, Nov 3-7.
[2] Annotationsleitlinie: https://doi.org/10.5281/zenodo.7707882 / Publikation: Tobias Kolditz, Christina Lohr, Johannes Hellrich, Luise Modersohn, Boris Betz, Michael Kiehntopf, Udo Hahn: Annotating German Clinical Documents for De-Identification (MedInfo 2019 Aug 25-30 Lyon France) [Slides]
[3] Annotationsleitlinie: https://doi.org/10.5281/zenodo.7707917 / Publikation: Christina Lohr, Luise Modersohn, Johannes Hellrich, Tobias Kolditz, Udo Hahn: An Evolutionary Approach to the of Discharge Summaries. In: Studies in Health Technology and Informatics, Vol. 270: Digital Personalized Health and Medicine – Proceedings of MIE 2020
[4] Annotationsleitlinie: https://doi.org/10.5281/zenodo.7707947 / Publikation: Udo Hahn, Franz Matthies, Christina Lohr, Markus Löffler. 3000PA-Towards a National Reference Corpus of German Clinical Language. In: Studies in Health Technology and Informatics, Vol. 247: Building Continents of Knowledge in Oceans of Data: The Future of Co-Created eHealth – Proceedings of MIE 2018, Gothenburg, Sweden, April 24-26 2018. [Slides]