Darstellung einer IT-Infrastruktur: Nahaufnahme von mehreren blauen Ethernet-Kabeln, die in Netzwerk-Switches eingesteckt sind. Die Kabel verlaufen geordnet in verschiedene Ports, während das Bild eine klare, technisch saubere Umgebung vermittelt.
Bildquelle: © xiaoliangge.stock.adobe.com

SMITH-Use Case PheP: Innovative Werkzeuge und Methoden zur Auswertung klinischer Daten – Ein Resümee aus fünf Jahren Projektlaufzeit

Durch die Arbeiten der Medizininformatik-Initiative (MII) und den damit verbundenen Aufbau von Datenintegrationszentren (DIZ) wird ein einzigartiger und reichhaltiger Bestand an klinischen Versorgungsdaten aus verschiedenen Bereichen der Krankenversorgung für die Forschung zugänglich gemacht. Einzigartig deshalb, weil diese Daten für alle beteiligten Universitätskliniken in Deutschland in Form und Inhalt genau definiert sind. Um die Daten bestmöglich für die Forschung und innovative Versorgung nutzbar zu machen, wurde im Januar 2018 der methodische Anwendungsfall Phänotypisierungspipeline (PheP) als Projekt des SMITH-Konsortiums gestartet. PheP unterstützt den Aufbau und die qualitative Anreicherung von Daten und zeigt auf, wie klinische Projekte diese Daten nutzen können. Ende dieses Monats wird das PheP-Projekt abgeschlossen. In fünf Jahren Laufzeit hat der methodische Use Case die Vorarbeiten für verschiedenste weitere Projekte der MII geleistet. PheP lieferte Werkzeuge und Methoden, mit denen medizinische Daten datenschutzgerecht genutzt und neuartige Fragestellungen bearbeitet werden können.

Mit Algorithmen Krankheiten frühzeitig erkennen

Dabei wurde in PheP unter anderem mit Phänotypisierung gearbeitet. Darunter sind Verfahren zu verstehen, mit denen aus vorhandenen Daten neue Informationen gewonnen werden. Bestimmte Eigenschaften bzw. Phänotypen von Patientinnen und Patienten aus medizinischen Dokumenten werden automatisch erkannt und gruppiert. So können bestimmte Laborwerte und Medikationen Hinweise auf weitere Erkrankungen geben oder geeignete Patientinnen und Patienten für die Teilnahme an einer Studie gefunden werden. Aus diesem Projektteil ist die Nachwuchsgruppe Terminologie- und Ontologie-basierte Phänotypisierung (TOP) hervorgegangen. Die Nachwuchsgruppe ist an der Universität Leipzig angesiedelt und arbeitet seit 2021 unter der Leitung von Dr. Alexandr Uciteli an einer Softwareplattform zur Modellierung und Ausführung von Phänotyp-Algorithmen.

Datenschutzgerechte Analyse von Patientendaten direkt am Standort

Für die datenschutzgerechte Auswertung von Patientendaten hat das PheP-Projekt zudem eine Methode der verteilten Analyse etabliert: Die Daten werden noch vor Ort anonym verarbeitet und nur die Ergebnisse, die nicht mehr patientenbezogen sind, verlassen das Haus. Alle Algorithmen werden vorab entwickelt, an die teilnehmenden Standorte verteilt und dort ausgeführt. Dieses Verfahren wurde erfolgreich in verschiedenen nationalen Tests der MII, den Projectathons, aber auch im konsortienübergreifenden klinischen Anwendungsfall POLAR_MI eingesetzt, der sich mit Medikationssicherheit befasste. Verteilte Analysen werden in Zukunft unter anderem durch die im Rahmen von PheP initiierte Gruppe Personal Health Train weiter vereinfacht.

Medizinische Texte werden für die Forschung verfügbar gemacht

Darüber hinaus wurden im PheP-Anwendungsfall Vorarbeiten geleistet, um medizinische Dokumente durch die Verarbeitung natürlicher Sprache (engl.: natural language processing, kurz: NLP) für die Forschung verwendbar zu machen. Längst nicht alle Daten in elektronischen Patientenakten liegen bereits strukturiert und eindeutig kodiert als Zahlen und Fakten vor. Häufig werden Freitexte in der Dokumentation verwendet, z. B. bei Befunden oder Entlassungsbriefen. Das Projekt PheP-NLP entwickelte hier neue Verfahren, um z. B. Diagnosen, Befunde, Medikamente oder Nebenwirkungen aus den Texten zu extrahieren. Damit das funktioniert, ist eine möglichst große Sammlung dieser Texte, ein Textkorpus, notwendig. In einem Pilotprojekt mit den drei Universitätskliniken Aachen, Jena und Leipzig konnten medizinische Dokumente von über 3.000 Patientinnen und Patienten analysiert werden. Die dabei gewonnenen Erfahrungen haben zu einem neuen, bundesweitweit einzigartigen Projekt geführt: dem Textkorpusprojekt German Medical Texcorpus (GeMTeX). Es startet im Juni 2023 und wird mit 16 Partnern – darunter sechs Universitätskliniken – die mit Abstand größte Sammlung deutschsprachiger medizinischer Texte für die NLP-Forschung aufbauen. GeMTeX bildet damit die Grundlage für die Weiterentwicklung der Sprachverarbeitung in Deutschland.