„Die Texte aus der klinischen Versorgung sollen für die gesamte Forschungscommunity bereitstehen“ | 3. GeMTeX-Plenarmeeting am 20./21.11.2023 in München
Seit einem halben Jahr laufen bereits die Arbeiten an der Methodenplattform GeMTeX, einem Projekt der Medizininformatik-Initiative (MII). Am 20. und 21. November 2023 haben sich rund 30 GeMTeX-Mitarbeitende an der Medizinischen Fakultät der Technischen Universität München getroffen, um die ersten Projektfortschritte und Meilensteine zu besprechen.
GeMTeX fokussiert den Aufbau einer Datensammlung, die Texte aus der klinischen Patientenversorgung nutzt. Ein wesentlicher Kern im GeMTeX-Projekt sind Annotationsarbeiten an den Universitätskliniken Charité Berlin, Dresden, Erlangen, Essen, Leipzig und TU München. Dabei werden klinische Texte mit Metadaten zu Inhalt und Aufbau versehen, sodass sie beispielsweise für das Training von Sprachmodellen als Anwendung des Natural Language Processing genutzt werden können.
Projektleiter Prof. Dr. Martin Boeker, Professor für Medizinische Informatik an der TU München, betonte in seiner Begrüßung den nachhaltigen Ansatz, der mit dem Aufbau des Textkorpus im Rahmen des GeMTeX-Projekts verfolgt wird: „Wir machen das nicht nur für die Medizininformatik-Initiative – wir wollen die medizinischen Texte der gesamten Community bereitstellen“. Nach Abschluss der Arbeiten soll das Textkorpus über das ZB MED Informationszentrum Lebenswissenschaften verfügbar gemacht werden.
Umfassende Leitlinien für Annotationen werden entwickelt
Am ersten Tag standen die ab dem 1. März 2024 geplanten Annotationsarbeiten im Mittelpunkt. Derzeit werden die Richtlinien hierfür von der AG Annotation unter der Leitung von Luise Modersohn (TU München) erarbeitet. Diese fassen die Vorgaben zusammen, nach denen Texte mit zusätzlichen Informationen angereichert werden.
Das GeMTeX-Projekt lässt sich dabei vom internationalen EU-geförderten Projekt AIDAVA inspirieren, das sich der automatischen Erfassung und Bereitstellung von Patientendaten beschäftigt: In seinem Vortrag hat Prof. Dr. Stefan Schulz von der Medizinischen Universität Graz die Entwicklung einer Annotationsrichtlinie für das EU Projekt AIDAVA vorgestellt, die sich größtenteils an SNOMED-CT orientiert. Darüber hinaus hat er gezeigt, wie das international weit verbreitete Terminologiesystem SNOMED CT für die Abbildung von Textfragmenten genutzt werden kann.
Im Rahmen des GeMTeX-Projekts entsteht eine allgemeine Annotationsleitlinie, die ebenfalls zu großen Teilen auf SNOMED CT basiert und nicht für einen gesonderten Anwendungsfall oder eine bestimmte Datenquelle angepasst werden muss. Den aktuellen Entwicklungsstand dieser Richtlinien hat Christina Lohr von der Universität Leipzig vorgestellt. Neben der allgemeinen entstehen anwendungsspezifische Annotationsleitlinien, die für konkrete medizinische Fragestellungen genutzt werden können. Diese umfassen Richtlinien für die Annotation von Texten aus der Kardiologie, Onkologie und Neurologie sowie Texte, in denen potentielle unerwünschte Arzneimittelwechselwirkungen beschrieben sein könnten.
Technische Umsetzung des GeMTeX-Projekts ist in Vorbereitung
Der zweite Tag des GeMTeX-Plenarmeetings war technischen Themen gewidmet. Hierzu hat Dr. Frank Meineke, technische Leitung im GeMTeX-Projekt, die Ergebnisse einer Umfrage zum technischen Status der Standorte präsentiert. Ein wichtiger Bestandteil ist dabei die aktuelle Anzahl der informierten Patienteneinwilligungen (Broad Consent), die die Grundlage für den Aufbau des Textkorpus für GeMTeX bilden. Das Ziel ist es, mindestens 60.000 Dokumente aus den sechs am Projekt beteiligten Datenintegrationszentren für das Textkorpus zur Verfügung zu haben.
Im letzten Teil der Veranstaltung drehte sich alles um die für die Durchführung des GeMTeX-Projekts notwendige Software. Für die Annotation der Texte soll die Annotationsplattform INCEpTION der TU Darmstadt genutzt werden. Serwar Basch, wissenschaftlicher Mitarbeiter an der TU Darmstadt, hat von den aktuellen Entwicklungen um ein INCEpTION- Dashboard für eine detaillierte Auswertung von Annotationsarbeiten berichtet. Die Berliner Firma ID GmbH & Co. KGaA stellt den Terminologieserver für das Projekt zur Verfügung. Den aktuellen Stand des Terminologieservers hat André Sander, Leiter für die technische Entwicklung bei ID, auf dem Plenarmeeting präsentiert.
Zum Schluss hat Franz Matthies (Universität Leipzig) eine Referenzplattform vorgestellt, die das Zusammenspiel aus einer Software des Industriepartners Averbis GmbH zur automatisierten Vorannotation und der Annotationsplattform INCEpTION beinhaltet. Die Plattform soll an den beteiligten Standorten ausgerollt werden.
Das nächste Plenarmeeting findet am 27. Februar 2024 online statt.