dc.contributor.advisor |
Pfeifer, Nico (Prof. Dr.) |
|
dc.contributor.author |
de Arruda Botelho Herr, Marius Simon |
|
dc.date.accessioned |
2025-04-11T06:35:41Z |
|
dc.date.available |
2025-04-11T06:35:41Z |
|
dc.date.issued |
2025-04-10 |
|
dc.identifier.uri |
http://hdl.handle.net/10900/164132 |
|
dc.identifier.uri |
http://nbn-resolving.org/urn:nbn:de:bsz:21-dspace-1641321 |
de_DE |
dc.identifier.uri |
http://dx.doi.org/10.15496/publikation-105461 |
|
dc.description.abstract |
Die Übertragung von Daten zwischen verschiedenen Krankenhäusern ist oft eingeschränkt und
die föderierte Analyse von klinischen Daten ist eine gute Alternative. Bestehende föderierte
Analyse-Plattformen sind oft eingeschränkt in Bezug auf die Art der zu verarbeitenden Einga-
bedaten oder die durchführbaren Analysemethoden. Im Paradigma des Personal Health Trains
reist der Analysealgorithmus (in einem ’Zug’ verpackt) zwischen mehreren Standorten (z.B.
Krankenhäusern - sogenannten ’Bahnhöfen’), die die Daten in ihrer geschützten Infrastruktur
vorhalten, und überträgt nur Ergebnisse anstelle der Daten selbst. Innerhalb der etablierten
Infrastruktur der deutschen Medizininformatik-Initiative werden strukturierte pseudonymisier-
te klinische Daten der Patienten in FHIR-Servern an Datenintegrationszentren bereitgestellt,
basierend auf den HL7/FHIR-Profilen des deutschen nationalen Kernsatzes.
Die Implementierung von Zügen als gesicherte Container ermöglicht es, komplexe Da-
tenanalyse Arbeitsabläufe zwischen Standorten zu transportieren, z.B. Genomanalysen oder
Deep-Learning-Algorithmen; Analysemethoden, die im Allgemeinen nicht leicht anwendbar
sind. Wir präsentieren PHT-meDIC, eine produktiv eingesetzte, interoperable, Open-Source-
Implementierung des Personal Health Train-Paradigmas. Der Anwendungsbereich für diese
Plattform reicht von maschinellen Lernalgorithmen bis hin zur anspruchsvollen Analyse von
Genomen und Bildern mit beliebigen Eingabedaten. Virtualisierung ermöglicht die automati-
sierte Bereitstellung komplexer Datenanalyse-Arbeitsabläufe (z.B. Genom oder Bildanalyse)
über mehrere Krankenhäuser hinweg in sicherer und skalierbarer Weise. Wir kombinieren
verschiedene Open-Source-Drittanbieterdienste mit mehreren eigens entwickelten Diensten.
Eine Aufteilung in verschiedene Dienste ermöglicht eine flexible Anpassung und Erweiterung
in skalierbarer Form. Wir haben eine ständige Überwachung und konsistente Ausführung von
Zügen erreicht und stellen Betriebs-Vorlagendokumente für die Bereitstellung zur Verfügung. In
unserem vorgeschlagenen Sicherheitsprotokoll haben Krankenhäuser Pseudo-Identifikatoren
innerhalb der Infrastruktur und können nur auf ihren Projektserver zugreifen, wodurch solche
Schlussfolgerungsangriffe weniger wahrscheinlich sind. Ergebnisse sind immer verschlüsselt.
Nur teilnehmende Standorte und der aktive Benutzer können darauf zugreifen. Manipulationen
an Zügen werden in jeder Phase erkannt. |
de_DE |
dc.description.abstract |
Transferring data between different hospitals is often restricted, and federated analysis of
clinical data is a viable alternative. Existing federated analytics frameworks are often limited
in the type of input data to process or analysis that can be performed. In the Personal Health
Train paradigm, the analysis algorithm (wrapped in a ’train’) travels between multiple sites
(e.g., hospitals - so-called ’train stations’), hosting the data in their protected infrastructure,
and only transfers results rather than the data. Within the established infrastructure of the
German Medical Informatics initiatives, patients’ structured pseudonymized clinical data is
stored in FHIR servers at Data Integration Centers based on the HL7/FHIR profiles of the
German National Core Data Set.
Implementing trains as secured containers enables complex data analysis workflows to
travel between sites, i.e., genomics pipelines or deep-learning algorithms - analytic methods
that are generally not easily amenable. We present PHT-meDIC, a productively deployed, in-
teroperable, open-source implementation of the Personal Health Train paradigm. The scope
of applications for this platform ranges from machine learning algorithms to sophisticated
omics and image analysis with arbitrary input data. Light-weight virtualization permits the
automated deployment of complex data analysis pipelines (e.g., genomics, image analysis)
across multiple hospitals in a secure and scalable manner. We combine different open-source
third-party services with several custom-developed services. A separation into various services
allows flexible adaption and extension in a scalable form. We achieve constant monitoring
and persistent execution of trains and are providing governance template documents for de-
ployment. In our proposed security protocol, hospitals have pseudo-identifiers within the
infrastructure and can only access their repository, so that such inference attacks are less likely.
Results are always encrypted at rest. Only participating sites and the submitting user can access
them. Manipulation of trains will be detected at any stage.
Furthermore, researchers can use additional privacy mechanisms (e.g., Paillier cryptosys-
tem). The execution is within an encapsulated environment using project-specific FHIR servers
or data warehouses. We successfully deployed the implementation for distributed analyses
of large-scale data. Our platform has been extended for interoperability in the Leuko-Expert
project with other Medical Informatics Initiative partners’ architecture. |
en |
dc.language.iso |
en |
de_DE |
dc.publisher |
Universität Tübingen |
de_DE |
dc.rights |
ubt-podno |
de_DE |
dc.rights.uri |
http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=de |
de_DE |
dc.rights.uri |
http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=en |
en |
dc.subject.other |
Verteilte Analyse |
de_DE |
dc.subject.other |
Verteiltes Maschinelles Lernen |
de_DE |
dc.subject.other |
Datensicherheit |
de_DE |
dc.title |
Personal Health Train: Advancing Distributed Machine Learning in Healthcare with Data Privacy and Security |
en |
dc.type |
PhDThesis |
de_DE |
dcterms.dateAccepted |
2025-03-05 |
|
utue.publikation.fachbereich |
Informatik |
de_DE |
utue.publikation.fakultaet |
7 Mathematisch-Naturwissenschaftliche Fakultät |
de_DE |
utue.publikation.noppn |
yes |
de_DE |