Personal Health Train: Advancing Distributed Machine Learning in Healthcare with Data Privacy and Security

de Arruda Botelho Herr, Marius Simon

Publikationsdienste
→
TOBIAS-lib - Publikationen und Dissertationen
→
7 Mathematisch-Naturwissenschaftliche Fakultät
→
Dokumentanzeige

dc.contributor.advisor	Pfeifer, Nico (Prof. Dr.)
dc.contributor.author	de Arruda Botelho Herr, Marius Simon
dc.date.accessioned	2025-04-11T06:35:41Z
dc.date.available	2025-04-11T06:35:41Z
dc.date.issued	2025-04-10
dc.identifier.uri	http://hdl.handle.net/10900/164132
dc.identifier.uri	http://nbn-resolving.org/urn:nbn:de:bsz:21-dspace-1641321	de_DE
dc.identifier.uri	http://dx.doi.org/10.15496/publikation-105461
dc.description.abstract	Die Übertragung von Daten zwischen verschiedenen Krankenhäusern ist oft eingeschränkt und die föderierte Analyse von klinischen Daten ist eine gute Alternative. Bestehende föderierte Analyse-Plattformen sind oft eingeschränkt in Bezug auf die Art der zu verarbeitenden Einga- bedaten oder die durchführbaren Analysemethoden. Im Paradigma des Personal Health Trains reist der Analysealgorithmus (in einem ’Zug’ verpackt) zwischen mehreren Standorten (z.B. Krankenhäusern - sogenannten ’Bahnhöfen’), die die Daten in ihrer geschützten Infrastruktur vorhalten, und überträgt nur Ergebnisse anstelle der Daten selbst. Innerhalb der etablierten Infrastruktur der deutschen Medizininformatik-Initiative werden strukturierte pseudonymisier- te klinische Daten der Patienten in FHIR-Servern an Datenintegrationszentren bereitgestellt, basierend auf den HL7/FHIR-Profilen des deutschen nationalen Kernsatzes. Die Implementierung von Zügen als gesicherte Container ermöglicht es, komplexe Da- tenanalyse Arbeitsabläufe zwischen Standorten zu transportieren, z.B. Genomanalysen oder Deep-Learning-Algorithmen; Analysemethoden, die im Allgemeinen nicht leicht anwendbar sind. Wir präsentieren PHT-meDIC, eine produktiv eingesetzte, interoperable, Open-Source- Implementierung des Personal Health Train-Paradigmas. Der Anwendungsbereich für diese Plattform reicht von maschinellen Lernalgorithmen bis hin zur anspruchsvollen Analyse von Genomen und Bildern mit beliebigen Eingabedaten. Virtualisierung ermöglicht die automati- sierte Bereitstellung komplexer Datenanalyse-Arbeitsabläufe (z.B. Genom oder Bildanalyse) über mehrere Krankenhäuser hinweg in sicherer und skalierbarer Weise. Wir kombinieren verschiedene Open-Source-Drittanbieterdienste mit mehreren eigens entwickelten Diensten. Eine Aufteilung in verschiedene Dienste ermöglicht eine flexible Anpassung und Erweiterung in skalierbarer Form. Wir haben eine ständige Überwachung und konsistente Ausführung von Zügen erreicht und stellen Betriebs-Vorlagendokumente für die Bereitstellung zur Verfügung. In unserem vorgeschlagenen Sicherheitsprotokoll haben Krankenhäuser Pseudo-Identifikatoren innerhalb der Infrastruktur und können nur auf ihren Projektserver zugreifen, wodurch solche Schlussfolgerungsangriffe weniger wahrscheinlich sind. Ergebnisse sind immer verschlüsselt. Nur teilnehmende Standorte und der aktive Benutzer können darauf zugreifen. Manipulationen an Zügen werden in jeder Phase erkannt.	de_DE
dc.description.abstract	Transferring data between different hospitals is often restricted, and federated analysis of clinical data is a viable alternative. Existing federated analytics frameworks are often limited in the type of input data to process or analysis that can be performed. In the Personal Health Train paradigm, the analysis algorithm (wrapped in a ’train’) travels between multiple sites (e.g., hospitals - so-called ’train stations’), hosting the data in their protected infrastructure, and only transfers results rather than the data. Within the established infrastructure of the German Medical Informatics initiatives, patients’ structured pseudonymized clinical data is stored in FHIR servers at Data Integration Centers based on the HL7/FHIR profiles of the German National Core Data Set. Implementing trains as secured containers enables complex data analysis workflows to travel between sites, i.e., genomics pipelines or deep-learning algorithms - analytic methods that are generally not easily amenable. We present PHT-meDIC, a productively deployed, in- teroperable, open-source implementation of the Personal Health Train paradigm. The scope of applications for this platform ranges from machine learning algorithms to sophisticated omics and image analysis with arbitrary input data. Light-weight virtualization permits the automated deployment of complex data analysis pipelines (e.g., genomics, image analysis) across multiple hospitals in a secure and scalable manner. We combine different open-source third-party services with several custom-developed services. A separation into various services allows flexible adaption and extension in a scalable form. We achieve constant monitoring and persistent execution of trains and are providing governance template documents for de- ployment. In our proposed security protocol, hospitals have pseudo-identifiers within the infrastructure and can only access their repository, so that such inference attacks are less likely. Results are always encrypted at rest. Only participating sites and the submitting user can access them. Manipulation of trains will be detected at any stage. Furthermore, researchers can use additional privacy mechanisms (e.g., Paillier cryptosys- tem). The execution is within an encapsulated environment using project-specific FHIR servers or data warehouses. We successfully deployed the implementation for distributed analyses of large-scale data. Our platform has been extended for interoperability in the Leuko-Expert project with other Medical Informatics Initiative partners’ architecture.	en
dc.language.iso	en	de_DE
dc.publisher	Universität Tübingen	de_DE
dc.rights	ubt-podno	de_DE
dc.rights.uri	http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=de	de_DE
dc.rights.uri	http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=en	en
dc.subject.other	Verteilte Analyse	de_DE
dc.subject.other	Verteiltes Maschinelles Lernen	de_DE
dc.subject.other	Datensicherheit	de_DE
dc.title	Personal Health Train: Advancing Distributed Machine Learning in Healthcare with Data Privacy and Security	en
dc.type	PhDThesis	de_DE
dcterms.dateAccepted	2025-03-05
utue.publikation.fachbereich	Informatik	de_DE
utue.publikation.fakultaet	7 Mathematisch-Naturwissenschaftliche Fakultät	de_DE
utue.publikation.noppn	yes	de_DE

Dateien:	Dissertation_Personal_Health_Train_Mariu ... 9.28 MB PDF Beschreibung: Dissertation

Das Dokument erscheint in:

7 Mathematisch-Naturwissenschaftliche Fakultät [4979]

Zur Kurzanzeige

Veröffentlichen

Stöbern

Gesamter Bestand
Diese Sammlung

Mein Benutzerkonto

Einloggen

Personal Health Train: Advancing Distributed Machine Learning in Healthcare with Data Privacy and Security

DSpace Repositorium (Manakin basiert)

Das Dokument erscheint in:

Stöbern

Gesamter Bestand

Diese Sammlung

Mein Benutzerkonto