From Microbes to Medical Cohorts: Visualizing Multi-Omics Data on Different Scales

DSpace Repositorium (Manakin basiert)


Dateien:

Zitierfähiger Link (URI): http://hdl.handle.net/10900/168076
http://nbn-resolving.org/urn:nbn:de:bsz:21-dspace-1680763
http://dx.doi.org/10.15496/publikation-109403
Dokumentart: Dissertation
Erscheinungsdatum: 2025-07-14
Sprache: Englisch
Fakultät: 7 Mathematisch-Naturwissenschaftliche Fakultät
Fachbereich: Informatik
Gutachter: Nieselt, Kay (Prof. Dr.)
Tag der mündl. Prüfung: 2025-04-29
DDC-Klassifikation: 000 - Allgemeines, Wissenschaft
004 - Informatik
500 - Naturwissenschaften
570 - Biowissenschaften, Biologie
610 - Medizin, Gesundheit
Schlagworte: Visualisierung , Bioinformatik , Webentwicklung , Datenanalyse , Programm , Bakterien , Kohorte , Patient , Daten , Biologie , Genomik , Transkriptomanalyse
Freie Schlagwörter: Multi-Omics
Multi-Omics
Lizenz: http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=de http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=en
Zur Langanzeige

Inhaltszusammenfassung:

Biologische Daten werden in vielen Bereichen analysiert, vor allem zur Verbesserung des menschlichen Wohlergehens bei der Erforschung von Krankheiten, um Heilmittel zu finden, wie neuartige Antibiotika zur Bekämpfung der Antibiotikaresistenz. Um neuartige Antibiotika oder Wirkmechanismen zu entdecken, untersuchen Forscher, wie Antibiotika von Bakterien produziert werden und wie sie auf Bakterien wirken. Hierzu werden Hochdurchsatzmethoden wie Second Generation Sequencing oder die Massenspektrometrie genutzt um Daten zu erzeugen, die ein vollständiges Bild des Genoms, Transkriptoms, Proteoms und Metaboloms eines Organismus vermitteln. Das entprechende Forschungsfeld wird als "omics" und die Kombination wird als "multi-omics" bezeichnet. Multi-omics-Daten können als ein mehrschichtiges Netzwerk von Genen, Transkripten, Proteinen und Metaboliten mit Interaktionen innerhalb und zwischen omics-Schichten betrachtet werden. Die Form der Daten kann variabel sein. Datensätze können mehrere omics-Schichten oder nur eine Teilmenge umfassen, aus wenigen Proben oder ganzen Kohorten bestehen und von einer einzigen gut annotierten Spezies oder einem Nicht-Modellorganismus stammen. Die Interpretation dieser komplexen Daten erfordert spezialisierte Analyse- und Visualisierungsmethoden, die auf die zugrunde liegenden Daten und biologischen Fragen zugeschnitten sind. Visualisierung kann dazu beitragen, die Analyseergebnisse an die Fachwissenschaftler zu vermitteln und die Fähigkeit des menschlichen Gehirns zur Mustererkennung und Integration von Hintergrundwissen zu nutzen. In dieser Dissertation werden explorative Visualisierungsansätze für Multi-omics-Daten vorgestellt. Abhängig von der Forschungsfrage sind die Ansätze auf verschiedene Multi-omics-Ebenen und Arten von Datensätzen ausgerichtet. Außerdem werden verschiedene Integrationsmethoden angewandt, darunter wissensbasierte Integration, datengesteuerte Integration und zusammengesetzte Netzwerke. Bei der wissensbasierten Integration werden Omics-Daten mit bekannten Strukturen kombiniert. Diese Dissertation zeigt beispielhaft, wie Daten integriert werden können, indem sie auf die Koordinaten eines Genoms abgebildet werden und Vorhersagealgorithmen angewendet werden, um genomische Merkmale von Interesse zu finden. Darüber hinaus wird Wissen durch universelles Vokabular integriert, indem die Gene Ontology verwendet wird um funktionelle Veränderungen beim Vergleich von Experimenten oder Omics-Ebenen zusammenzufassen. Die datengesteuerte Integration kombiniert Omics-Daten ohne vorherige Kenntnis der Annotationen. Hier können Visualisierungstools helfen, algorithmisch oder manuell erstellte Gruppen oder Cluster von Omics-Daten zu untersuchen. Dies ist auf verschiedenen Ebenen möglich, z. B. bei der Analyse kontrollierter Experimente unter mehreren Bedingungen oder bei der Analyse von Kohortendaten vieler Individuen. Bei einem Ansatz, der auf Experimente mit mehreren Bedingungen abzielt, werden Gene, Transkripte und Proteine algorithmisch geclustert, um ähnliches Verhalten unter verschiedenen Bedingungen zu vergleichen. In ähnlicher Weise werden bei einem anderen Ansatz Patientenkohorten anhand von Multi-omics-Daten oder Metadaten gruppiert, um Patientengruppen zu vergleichen und ihre zeitliche Entwicklung zu untersuchen. Darüber hinaus können zusammengesetzte Netzwerke Omics-Daten aus verschiedenen Quellen kombinieren. Dazu gehört die wissensbasierte Integration, z. B. durch die Erstellung von Netzwerken auf der Grundlage bekannter Protein-Protein-Assoziationen, oder die datengesteuerte Integration beim Aufbau von Multi-omics-Korrelationsnetzwerken. Diese Art der Integration ermöglicht die Analyse und Visualisierung mit etablierten Netzwerkansätzen. Zusammengesetzte Netzwerke weisen häufig die "kleine Welt" Eigenschaft auf, d. h. sie haben eine geringe durchschnittliche Pfadlänge und einen hohen Clustering-Koeffizienten. Die in dieser Dissertation vorgestellte Netzwerkvisualisierung macht sich diese Eigenschaft zunutze, um die Netzwerkgröße zu reduzieren und Multi-omics-Netzwerke in ihrer Gesamtheit darzustellen. Basierend auf den vorgestellten Ansätzen werden die verschiedenen Strategien zur Multi-Omics-Integration und Visualisierung aufgezeigt. Darüber hinaus wird ihre Implementierung beschrieben und ihre Verwendung veranschaulicht. Abschließend wird diskutiert, wie die Ansätze erweitert und einem größeren Publikum zugänglich gemacht werden können.

Abstract:

Biological data is analyzed in many domains, most importantly, in medical research to improve human well-being. The data can be used to study diseases and to find cures such as novel antibiotics when fighting antibiotic resistance. For this, researchers study how antibiotics act on bacteria and how bacteria themselves produce antibiotics to find potential candidate drugs. High-throughput methods, including second-generation sequencing or mass spectrometry can produce data providing a complete picture of an organism's genome, transcriptome, proteome, and metabolome. Each corresponding field is called an "omics" field and the combination is known as multi-omics. Multi-omics data can be seen as a multi-layer network of genes, transcripts, proteins, and metabolites with interactions within and between omics layers. The shape of data is variable. Data sets may include many omics layers or only a subset, consist of few samples or entire cohorts, and can be of a single well-annotated species or a non-model organism. This complex data requires advanced analysis and visualization methods for its interpretation tailored to the underlying data and the biological questions. Visualization can help communicate analysis results to domain researchers and leverage the capacity of human brains for pattern recognition and integration of background knowledge. This dissertation presents exploratory visualization approaches for multi-omics data. Depending on the research question, the approaches are focused on different multi-omics levels and types of data sets. Furthermore, they apply several different integration methods, including knowledge-based integration, data-driven integration, and composite networks. Knowledge-based integration combines omics data with known structures. With an approach for visualizing Biosynthetic Gene Clusters, this dissertation exemplifies how data can be integrated by mapping it to the coordinates of a genome and applying prediction algorithms to find genomic features of interest. In another approach knowledge is integrated using universal vocabulary in the form of Gene Ontology terms to summarize the functional changes when comparing experiments or omics layers. Data-driven integration integrates omics data without previous knowledge of annotations. For this, two visualization approaches presented help explore algorithmically or manually created groups or clusters of omics data. This is done at different scales, such as experiments with multiple conditions of a single organism or cohort data with many individuals. In an approach aimed at multi-condition experiments genes, transcripts, and proteins are clustered algorithmically to compare similar behavior across conditions. Similarly, in another approach cohorts of patients are grouped by multi-omics data or metadata and the temporal evolution and similarity of patient subgroups can be studied. Finally, composite networks can combine omics data from different sources. This includes knowledge-based integration, for example by creating networks based on known protein-protein associations, or data-driven integration when building multi-omics correlation networks. This type of integration opens up the whole world of analysis and visualization using network approaches. Composite networks often show the small world property, meaning they have a small average path length and a high clustering coefficient. The network visualization presented in this dissertation leverages this property to reduce network size and display entire multi-omics networks. Based on the presented approaches the different strategies for multi-omics integration and visualization are highlighted. Furthermore, their implementation is described and their usage is exemplified. Finally, this dissertation discusses how the approaches can be extended and made available to larger audiences.

Das Dokument erscheint in: