Use Case PheP

Methodischer Use Case PheP

Phänotypisierungspipeline zur Unterstützung klinischer Auswertungsprojekte

Durch die Medizininformatik-Initiative (MII) und den Aufbau der Datenintegrationszentren (DIZ) werden klinische Versorgungdaten aus verschiedenen Quellen des Krankenhausinformationssystems (KIS) für die medizinische Forschung nutzbar gemacht. Dabei entsteht ein einzigartiger und reicher Bestand klinischer Daten, die präzise über alle teilnehmenden Standorte definiert sind. Mit dem methodischen Anwendungsfall Phänotypisierungspipeline, kurz PheP, hat das SMITH-Konsortium von 2018 bis 2023 den Aufbau, die qualitative Anreicherung und die Auswertung des Datenbestandes unterstützt. Die Federführung lag bei der Universität Leipzig.

Use Case PheP

Entwicklung innovativer Verfahren zur Aufbereitung, Extraktion und Strukturierung klinischer Versorgungsdaten für Forschung und Versorgung

Bereitstellung einer Plattform für die Ausführung verteilter Analysen

Aufbau, qualitative Anreicherung und Auswertung des klinischen Datenbestandes

Beteiligung aller in SMITH vertretenen Universitäsklinika unter Federführung der Universität Leipzig

Die PheP-Idee: Gesundheitsdaten anreichern und bestmöglich der Wissenschaft zuführen

PheP hat Werkzeuge und Methoden geliefert, mit denen medizinische Daten datenschutzgerecht genutzt und neuartige Fragestellungen bearbeitet werden können.  In fünf Jahren Laufzeit hat der methodische Use Case die Vorarbeiten für verschiedenste weitere Projekte der MII geleistet. Hierfür war es notwendig Datensätze aufzubauen, die für klinisch-epidemiologische und gesundheitsökonomische Fragestellungen nutzbar sind.

Mittels Phänotypisierung wurden in PheP aus bestimmbaren Merkmalen von Patientinnen und Patienten (Phänotypen) weitere Merkmale abgeleitet und bereitgestellt. So können bestimmte Laborwerte und Medikationen Hinweise auf weitere Erkrankungen geben oder geeignete Patientinnen und Patienten für die Teilnahme an einer Studie gefunden werden. Aus diesem Projektteil ist die Nachwuchsgruppe Terminologie- und Ontologie-basierte Phänotypisierung (TOP) hervorgegangen. Die Nachwuchsgruppe ist an der Universität Leipzig angesiedelt und arbeitet seit 2021 unter der Leitung von Dr. Alexandr Uciteli an einer Softwareplattform zur Modellierung und Ausführung von Phänotyp-Algorithmen. PheP hat dabei das Record-Linkage-Verfahren unterstützt, über das Daten einer Patientin oder eines Patienten aus unterschiedlichen Informationsquellen zusammengeführt werden, beispielsweise von Krankenkassen oder Sterbedaten aus Melderegistern.

Medizinische Texte werden für die Forschung verfügbar gemacht

Allerdings liegen zu wenige klinische Informationen als maschinenlesbare Datensätze vor – eine Herausforderung für die Umsetzung des PheP-Projekts. Gerade in Einweisungsbriefen, Befunden oder OP-Berichten finden sich wertvolle Informationen wie Diagnosen, Medikamente, Nebenwirkungen oder Labordaten, die nur mit Methoden der natürlichen Sprachverarbeitung (engl. Natural Language Processing, kurz NLP) und der semantischen Textanalyse extrahiert werden können. Das Projekt PheP-NLP hat neue Verfahren entwickelt, um komplexe Informationen wie z. B. Diagnosen, Befunde, Medikamente oder Nebenwirkungen aus den Texten herauszulesen. Der Prozess wurde akademisch geleitet durch das Jena University Language & Information Engineering Lab (JULIE Lab) in Zusammenarbeit mit Unternehmen auf dem Gebiet der Sprachverarbeitung. In einem Pilotprojekt mit den drei Universitätskliniken Aachen, Jena und Leipzig konnten medizinische Dokumente von über 3.000 Patientinnen und Patienten analysiert werden. Die dabei gewonnenen Erfahrungen haben zu einem neuen, bundesweitweit einzigartigen Projekt geführt: dem Textkorpusprojekt German Medical Textcorpus (GeMTeX). Es ist im Juni 2023 gestartet und wird mit 16 Partnern – darunter sechs Universitätskliniken – die mit Abstand größte Sammlung deutschsprachiger medizinischer Texte für die NLP-Forschung aufbauen.

Die PheP-Engine erlaubt datenschutzgerechte Auswertungen

Die Idee der verteilten Analyse wurde als „PheP-Engine“ an den Standorten der MII zur technischen Grundlage für die Durchführung übergreifender Datennutzungsprojekte. Die sichere Technologie der PheP-Engine hat verteilte Analysen auf den semantisch und technisch standardisierten Daten an allen Standorten ermöglicht. Bei der verteilten Analyse bleiben sensible Patientendaten in der Klinik, während die Algorithmen zu den Daten gelangen. Mit dieser Technologie können verschiedene klinische Fragestellungen flexibel und datenschutzkonform angegangen werden. Die verteilte Analyse wird in mehreren sogenannten Projectathons der MII über die Grenzen der Konsortien hinaus genutzt, beispielsweise im Kardiologie-Datennutzungsprojekt „NT-proBNP“.

Der Use Case PheP wurde vom 01.01.2018 bis zum 31.05.2023 im Rahmen des SMITH-Konsortiums vom Bundesministerium für Bildung und Forschung (BMBF) gefördert.

Zentrale Publikationen:

Meineke FA, Stäubert S, Löbe M, Uciteli A, Löffler M:

Design and Concept of the SMITH Phenotyping Pipeline.

In: Stud Health Technol Inform. 2019 Sep 3;267:164-172. doi: 10.3233/SHTI190821. PMID: 31483269.

Uciteli A, Beger C, Kirsten T, Meineke FA, Herre H:

Ontological representation, classification and data-driven computing of phenotypes.

In: J Biomed Semantics. 2020 Dec 21;11(1):15. doi: 10.1186/s13326-020-00230-0. PMID: 33349245; PMCID: PMC7751121.

Hahn U, Matthies F, Lohr C, Löffler M:

3000PA-Towards a National Reference Corpus of German Clinical Language.

In: Stud Health Technol Inform. 2018;247:26-30. PMID: 29677916.

„SMITH orientiert sich in seinen Arbeiten an den aktuellen Herausforderungen der Digitalisierung. Durch die nachhaltige Nutzung von Versorgungsdaten in der medizinischen Forschung werden entscheidende Schritte zur Verbesserung von Diagnose, Prävention und Therapie geleistet. Die Gesundheitsversorgung kann so auf eine neue Stufe gehoben werden.“

Prof. Dr. Markus Löffler

Konsortialleiter SMITH
Leiter Use Case PheP
Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE) | Universität Leipzig