Bildquelle: © PADME Analytics

Die Daten verbleiben am Standort: PADME-Plattform erleichtert datenschutzgerechte Analysen medizinischer Daten

Bei der Analyse großer Mengen personenbezogener Daten kommt der verteilten Datenanalyse eine hohe Bedeutung zu. Die im Rahmen des SMITH-Konsortiums etablierte “Platform for Analysis and Distributed Machine Learning for Enterprises” (PADME) erleichtert künftig verteilte Analysen mit medizinischen Daten.

PADME bedient sich dabei dem Personal Health Train-Konzept (PHT). Der PHT verfolgt eine verteilte Datenanalyse. Anders als bislang gewohnt kommt die Analyse dabei zu den Daten, anstatt dass alle relevanten Daten zunächst zentralisiert und dann analysiert werden. So können die potentiell sensitiven Daten geschützt an ihrem Standort verbleiben.

Die Vorgehensweise des Personal Health Trains ist vergleichbar mit einem Gütertransport per Eisenbahn. Datenanalysen werden an den datenhaltenden Institutionen nacheinander ausgeführt. Die Institutionen stellen dabei unterschiedliche Stationen dar, die der „Datenanalysezug“ anfährt.

Datenschutzsichere Analysen mit dem Personal Health Train

Über die PADME-Plattform können sich datenführende Institutionen registrieren, um ausgewählte medizinische Daten in die Analyse einer Forschungsfragestellung einzubringen. Dazu stellen Forschende Analyseprogramme bereit; im besten Fall nutzen sie ein bereits von PADME verwaltetes Programm. Diese Programme werden gemäß dem PHT-Konzept für die Analyse von Standort zu Standort geschickt, wo sie die aus den Daten ermittelten Ergebnisse aufnehmen und an den nächsten Standort weitergeben. Die Daten bleiben an ihrem Herkunftsort und sind während der Analyse nicht von den Forschenden einsehbar. Nur das Programm selbst erlangt jeweils Zugriff auf die relevanten Daten. An jedem Standort bestimmt ein eigener Administrator über den Datenzugriff.

Dem PHT-Konzept folgend können in PADME verschiedene Gesundheitsorganisationen, Krankenhäuser, Kliniken oder weitere Institutionen, welche Gesundheitsdaten bereitstellen, die Rolle einer Station, d. h. eines beteiligten Partners, einnehmen.

Vielfältige Möglichkeiten der Datenanalyse – Unabhängig von der Programmiersprache

Das Spektrum der potentiell möglichen Datenanalysen reicht von einfachen deskriptiven Statistiken über verschiedene Arten der Regressionsanalysen bis hin zu komplexen Machine-Learning-Algorithmen, mit denen unterschiedliche Arten medizinischer Daten (inkl. Tabellen, Bilder, Texte u. v. m.) verarbeitet werden können. PADME ist nicht auf die Verwendung einer Programmiersprache zur Umsetzung der Datenanalyse begrenzt. Forschende, die die Plattform nutzen, können die Analyseprogramme in der für sie geeigneten Programmiersprache verfassen.

„Wir brauchen dringend solche Infrastrukturen wie PADME, um herausfordernden medizinischen Fragestellungen mit modernen Methoden der Informatik begegnen zu können. Methoden der Künstlichen Intelligenz zählen zweifelsohne dazu,“ sagt Prof. Dr. Oya Beyan, Professorin für Medizininformatik an der Universität zu Köln und Leiterin des PADME-Projekts. Den Nachweis hat PADME bereits in verschiedenen Studien und Datenanalysen erbracht. Eine Auswertung fokussierte sich beispielsweise auf die Klassifikation von Hautläsionen auf dem Gebiet der Dermatologie. Grundlage waren Bilder der Läsionen sowie beschreibende demographische und anamnestische Angaben zu den Patientinnen und Patienten. Die hierfür verwendeten Daten waren über drei Stationen verteilt und entsprechend dem Kerndatensatz der Medizininformatik-Initiative in einem FHIR-Server gespeichert. In weiteren Studien wurden die Funktionsfähigkeit und methodische Qualität der Plattform erprobt und darauf aufbauend optimiert.

Nachhaltiger Nutzen für Forschung und Gesundheitsversorgung

Unter Beachtung der datenschutzrechtlichen Anforderungen können über die PADME-Plattform somit neue Datenbestände in die medizinische Forschung einbezogen werden. Das langfristige Ziel ist die Verbesserung der Patientenversorgung.

Prof. Dr. Toralf Kirsten, Professor für Medical Data Science an der Universität Leipzig und einer der zentralen Mitwirkenden im PADME-Projekt, betont die Bedeutung der Plattform für eine verbesserte Forschung und Versorgung: „Das PHT-Konzept und die PADME-Plattform machen die Forschung mit großvolumigen, an verschiedenen Institutionen verwalteten Daten erst möglich. Zukünftig muss es gelingen, solche hoch-innovativen Ansätze und Produkte aus der Informatik verstärkt in die medizinische Forschung zu integrieren, um mit deren Ergebnissen die Patientenversorgung noch schneller und spezialisierter umsetzen zu können.“

Seit 2019 arbeiten die RWTH Aachen, das Fraunhofer FIT, die Universität zu Köln, die Universität Leipzig und die Hochschule Mittweida gemeinsam an der PADME-Plattform. Initiiert wurde sie aus Mitteln des vom BMBF geförderten SMITH-Konsortiums. Die Weiterentwicklung und Adaption des Projektes wurde in Kooperation mit den Use Cases  CORD und POLAR der Medizininformatik-Initiative sowie dem BMG-Konsortium LEUKO-Expert finanziert. Die zentralen Services werden vom Fraunhofer Institut für Angewandte Informationstechnologie (FIT) betrieben. „PADME und der Personal Health Train sind ein Paradigmenwechsel für die Analyse von Daten: Der Schutz der Daten – durch den Transfer der Analysen zu den Daten hin – ist nicht nur im Gesundheitswesen, sondern auch in vielen anderen Anwendungsbereichen entscheidend. Ich freue mich, dass das PADME-Team einen wichtigen Beitrag zu diesem Paradigmenwechsel leistet,“ erklärt Prof. Dr. Stefan Decker, Lehrstuhlinhaber für Informatik an der RWTH Aachen und Direktor des Fraunhofer Instituts für Angewandte Informationstechnologie.

Der aktuelle Fokus des Projektes liegt auf der Erweiterung der Plattform, um die Nutzbarkeit des verwendeten Ansatzes noch weiter zu verbessern.

So können Forschende und datenhaltende Standorte PADME nutzen
Unter www.padme-analytics.de können sich Wissenschaftlerinnen und Wissenschaftler für die Nutzung von PADME registrieren. Dort haben sie unter anderem auch Zugriff auf die bereits erstellten Analyseprogramme. Datenhaltende Institutionen können sich über eine zentrale Registrierungsseite anmelden. Nach Neuregistrierung wird die benötigte Software zur Verfügung gestellt.