Personal Health Train: Advancing Distributed Machine Learning in Healthcare with Data Privacy and Security

DSpace Repositorium (Manakin basiert)

Zur Kurzanzeige

dc.contributor.advisor Pfeifer, Nico (Prof. Dr.)
dc.contributor.author de Arruda Botelho Herr, Marius Simon
dc.date.accessioned 2025-04-11T06:35:41Z
dc.date.available 2025-04-11T06:35:41Z
dc.date.issued 2025-04-10
dc.identifier.uri http://hdl.handle.net/10900/164132
dc.identifier.uri http://nbn-resolving.org/urn:nbn:de:bsz:21-dspace-1641321 de_DE
dc.identifier.uri http://dx.doi.org/10.15496/publikation-105461
dc.description.abstract Die Übertragung von Daten zwischen verschiedenen Krankenhäusern ist oft eingeschränkt und die föderierte Analyse von klinischen Daten ist eine gute Alternative. Bestehende föderierte Analyse-Plattformen sind oft eingeschränkt in Bezug auf die Art der zu verarbeitenden Einga- bedaten oder die durchführbaren Analysemethoden. Im Paradigma des Personal Health Trains reist der Analysealgorithmus (in einem ’Zug’ verpackt) zwischen mehreren Standorten (z.B. Krankenhäusern - sogenannten ’Bahnhöfen’), die die Daten in ihrer geschützten Infrastruktur vorhalten, und überträgt nur Ergebnisse anstelle der Daten selbst. Innerhalb der etablierten Infrastruktur der deutschen Medizininformatik-Initiative werden strukturierte pseudonymisier- te klinische Daten der Patienten in FHIR-Servern an Datenintegrationszentren bereitgestellt, basierend auf den HL7/FHIR-Profilen des deutschen nationalen Kernsatzes. Die Implementierung von Zügen als gesicherte Container ermöglicht es, komplexe Da- tenanalyse Arbeitsabläufe zwischen Standorten zu transportieren, z.B. Genomanalysen oder Deep-Learning-Algorithmen; Analysemethoden, die im Allgemeinen nicht leicht anwendbar sind. Wir präsentieren PHT-meDIC, eine produktiv eingesetzte, interoperable, Open-Source- Implementierung des Personal Health Train-Paradigmas. Der Anwendungsbereich für diese Plattform reicht von maschinellen Lernalgorithmen bis hin zur anspruchsvollen Analyse von Genomen und Bildern mit beliebigen Eingabedaten. Virtualisierung ermöglicht die automati- sierte Bereitstellung komplexer Datenanalyse-Arbeitsabläufe (z.B. Genom oder Bildanalyse) über mehrere Krankenhäuser hinweg in sicherer und skalierbarer Weise. Wir kombinieren verschiedene Open-Source-Drittanbieterdienste mit mehreren eigens entwickelten Diensten. Eine Aufteilung in verschiedene Dienste ermöglicht eine flexible Anpassung und Erweiterung in skalierbarer Form. Wir haben eine ständige Überwachung und konsistente Ausführung von Zügen erreicht und stellen Betriebs-Vorlagendokumente für die Bereitstellung zur Verfügung. In unserem vorgeschlagenen Sicherheitsprotokoll haben Krankenhäuser Pseudo-Identifikatoren innerhalb der Infrastruktur und können nur auf ihren Projektserver zugreifen, wodurch solche Schlussfolgerungsangriffe weniger wahrscheinlich sind. Ergebnisse sind immer verschlüsselt. Nur teilnehmende Standorte und der aktive Benutzer können darauf zugreifen. Manipulationen an Zügen werden in jeder Phase erkannt. de_DE
dc.description.abstract Transferring data between different hospitals is often restricted, and federated analysis of clinical data is a viable alternative. Existing federated analytics frameworks are often limited in the type of input data to process or analysis that can be performed. In the Personal Health Train paradigm, the analysis algorithm (wrapped in a ’train’) travels between multiple sites (e.g., hospitals - so-called ’train stations’), hosting the data in their protected infrastructure, and only transfers results rather than the data. Within the established infrastructure of the German Medical Informatics initiatives, patients’ structured pseudonymized clinical data is stored in FHIR servers at Data Integration Centers based on the HL7/FHIR profiles of the German National Core Data Set. Implementing trains as secured containers enables complex data analysis workflows to travel between sites, i.e., genomics pipelines or deep-learning algorithms - analytic methods that are generally not easily amenable. We present PHT-meDIC, a productively deployed, in- teroperable, open-source implementation of the Personal Health Train paradigm. The scope of applications for this platform ranges from machine learning algorithms to sophisticated omics and image analysis with arbitrary input data. Light-weight virtualization permits the automated deployment of complex data analysis pipelines (e.g., genomics, image analysis) across multiple hospitals in a secure and scalable manner. We combine different open-source third-party services with several custom-developed services. A separation into various services allows flexible adaption and extension in a scalable form. We achieve constant monitoring and persistent execution of trains and are providing governance template documents for de- ployment. In our proposed security protocol, hospitals have pseudo-identifiers within the infrastructure and can only access their repository, so that such inference attacks are less likely. Results are always encrypted at rest. Only participating sites and the submitting user can access them. Manipulation of trains will be detected at any stage. Furthermore, researchers can use additional privacy mechanisms (e.g., Paillier cryptosys- tem). The execution is within an encapsulated environment using project-specific FHIR servers or data warehouses. We successfully deployed the implementation for distributed analyses of large-scale data. Our platform has been extended for interoperability in the Leuko-Expert project with other Medical Informatics Initiative partners’ architecture. en
dc.language.iso en de_DE
dc.publisher Universität Tübingen de_DE
dc.rights ubt-podno de_DE
dc.rights.uri http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=de de_DE
dc.rights.uri http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=en en
dc.subject.other Verteilte Analyse de_DE
dc.subject.other Verteiltes Maschinelles Lernen de_DE
dc.subject.other Datensicherheit de_DE
dc.title Personal Health Train: Advancing Distributed Machine Learning in Healthcare with Data Privacy and Security en
dc.type PhDThesis de_DE
dcterms.dateAccepted 2025-03-05
utue.publikation.fachbereich Informatik de_DE
utue.publikation.fakultaet 7 Mathematisch-Naturwissenschaftliche Fakultät de_DE
utue.publikation.noppn yes de_DE

Dateien:

Das Dokument erscheint in:

Zur Kurzanzeige