Efficient Algorithms and Pipelines for Microbiome Analysis

DSpace Repositorium (Manakin basiert)


Dateien:

Zitierfähiger Link (URI): http://hdl.handle.net/10900/161313
http://nbn-resolving.org/urn:nbn:de:bsz:21-dspace-1613135
http://dx.doi.org/10.15496/publikation-102645
Dokumentart: Dissertation
Erscheinungsdatum: 2025-01-29
Sprache: Englisch
Fakultät: 7 Mathematisch-Naturwissenschaftliche Fakultät
Fachbereich: Informatik
Gutachter: Huson, Daniel H. (Prof. Dr.)
Tag der mündl. Prüfung: 2023-02-01
DDC-Klassifikation: 004 - Informatik
Schlagworte: Bioinformatik , Algorithmus
Freie Schlagwörter:
bioinformatics
metagenomics
algorithms
Lizenz: http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=de http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=en
Zur Langanzeige

Inhaltszusammenfassung:

Mikroben sind in vielerlei Hinsicht von wesentlicher Bedeutung für unser Leben. Sie siedeln in unserem Körper, oft in einer Art des Kommensalismus. Wir nutzen sie in vielen Bereichen der Biotechnologie und Pharmazie. Aber als Krankheitserreger sind sie auch die Verursacher vieler Infektionen. Bis zur Entwicklung und breiten Verfügbarkeit von Next-Generation-Sequencing-Technologien war es nur möglich, sie unter traditionellen Kulturbedingungen zu untersuchen. Doch selbst heute kann nur ein geringer Anteil von ihnen in Kultur gezüchtet werden (Berichten zufolge bis zu 1\%). In der Natur leben sie in Interaktion mit anderen mikrobiellen Spezies, dem so genannten Mikrobiom, sowie mit ihrem Wirt und weiteren Faktoren ihrer Umwelt. Unter Metagenomik versteht man die Untersuchung mikrobieller Genome als Gesamtheit ihres genetischen Materials, das direkt aus einem Mikrobiom sequenziert wird. In dieser Dissertation werden mehrere neue methodische Fortschritte bei der Erforschung von mikrobiellen Genomen vorgestellt, wobei der Schwerpunkt auf Metagenomen liegt. Das Aufkommen von Long-Read-Sequenzierungstechnologien hat es Forschern ermöglicht, mikrobielle Genome detaillierter, schneller und bequemer zu untersuchen. wurden Ursprünglich wurden Berechnungsmethoden für die Metagenomanalyse für Short-Read-Sequenzierungstechnologien entwickelt. Sie mussten angepasst werden, bevor die Long-Read-Sequenzierungsmethoden für die Mikrobiomforschung eingesetzt werden konnten. Die erste Herausforderung, mit der wir uns hier befassen, ist das taxonomische und funktionelle Binning von Longreads aus einem Long-Read Metagenom Sequenzierungsdatensatz. Ein neuer LCA-Algorithmus (Lowest Common-Ancestor) wurde im Metagenome Analyzer (MEGAN) entwickelt, der in der Lage ist, metagenomische Long-Reads akkurater Bins zuzuordnen. In der zweiten vorgestellten Studie wurde dieser Algorithmus auf die Ergebnisse einer Pipeline angewandt, die entwickelt wurde, um Metagenom-assemblierte Genome (MAG) aus Umweltproben zu assemblieren, die ausschließlich unter Verwendung von Long-Read-Sequenzierung generiert wurden. Die systematischen Frameshift Fehler in Long-Read-Assemblies wurden ebenfalls berücksichtigt, um weitere nachgelagerte Analysen zu ermöglichen, wie z. B. die Qualitätskontrolle der assemblierten Contigs und die Annotation. Es wurde gezeigt, dass es möglich ist, selbst geschlossene, zirkuläre Chromosomen als Contigs aus der reinen Long-Read-\linebreak Metagenomsequenzierung von normalerweise komplexen Umweltproben zu erhalten. In einer separaten Studie wurden eine neuartige Software und eine Reihe von Algorithmen mit dem Namen MAIRA entwickelt, um Forschern in biologischen und klinischen Bereichen bei der zeit- und kosteneffizienten Analyse von Mikrobiomen zu helfen. MAIRA ist darauf ausgerichtet, auf einem modernen Laptop zu laufen, ohne dass ein Zugang zu Compute-Servern erforderlich ist, und taxonomische und funktionelle Analysen von Metagenomen in Echtzeit und im Bereich der Sequenzierung durchzuführen. MAIRA nutzt die Vorteile des Echtzeit-Basecalls und der Portabilität der Nanopore-Sequenzierung und verbindet sie mit effizienten Algorithmen, um zu ermitteln, welche bakteriellen Spezies in einer Umweltprobe vorhanden sind und welche Gene für antimikrobielle Resistenz oder Virulenzfaktoren diesen zugeordnet werden können. Schließlich wurde gezeigt, wie phylogenetische Outlines auf den phylogenetischen Kontext von Mikroben angewendet werden können, um ihre evolutionären Beziehungen zu bewerten. Neuartige mikrobielle Genome werden hierbei effizient mit einer Datenbank öffentlich zugänglicher mikrobieller Genome verglichen, um ihre evolutionären Distanzen zueinander abzuschätzen. Diese Distanzen werden dann verwendet, um ein phylogenetisches Outline zu erstellen, dass sich als alternativer und gut geeigneter Ansatz zur Bestimmung des phylogenetischen Kontextes neuartiger mikrobieller Genome erweist. Insgesamt verbessern die hier vorgestellten Methoden unsere Fähigkeiten bei der computergestützten Analyse mikrobieller Genome. Da die rasante Entwicklung der Sequenzierungstechnologien anhält, wird der Bedarf an neuartigen Berechnungsmethoden zur Analyse der immer größer werdenden mikrobiellen Datensätze weiter bestehen.

Abstract:

Microbes are essential in our lives in many aspects. They inhabit our bodies often in a commensal relationship. We utilize them in many fields of biotechnology and pharmacy. They are also causative agents of many infections as pathogens. Until the development and widespread availability of next-generation sequencing technologies, it was possible to study them only under traditional culture conditions. However, even today, we can grow only a minority (reported as low as 1\%) of them in cultures. In nature, they live in interaction with other microbial species, called the microbiome, as well as their host and other factors in the environment. Metagenomics is the study of microbial genomes as the total collection of their genetic material sequenced directly from a microbiome. This dissertation presents several novel methodological advancements to the study of microbial genomes, with a focus on microbiomes. The emergence of long-read sequencing technologies has enabled researchers to study microbial genomes in more detail, faster, and more conveniently. The computational methods to analyze metagenomes were initially developed for short-read sequencing technologies. They needed adaptations before the long-read sequencing methods could be used for microbiome research. The first challenge addressed here is the taxonomic and functional binning of long-reads from a long-read metagenomic sequencing dataset. A new lowest-common-ancestor (LCA) algorithm was developed in the Metagenome Analyzer (MEGAN) tool, such that it is capable of accurately binning long-read metagenomic datasets. In the second study presented, this algorithm was applied to the output of a pipeline that was developed to assemble metagenome-assembled-genomes (MAG) from environmental samples using only long-read sequencing. The systematic frameshift errors in long-read assemblies were also addressed to enable further downstream analysis on them, such as quality control of the assembled contigs and annotation. It was demonstrated that obtaining even closed, circular chromosomes as contigs from long-read only metagenomic sequencing of ordinarily complex environmental samples is possible. In a separate study, a novel software and a set of algorithms called MAIRA were developed to help researchers in biological and clinical fields to analyze microbiomes in a time and cost-efficient manner. MAIRA is aimed to run a modern laptop without requiring access to compute servers and perform taxonomic and functional analysis of metagenomes in real-time, and in the field of sequencing. It takes the real-time basecalling and portability advantages of Nanopore sequencing, and couples them with efficient algorithms to report which species are present in an environmental sample and which antimicrobial resistance or virulence factor genes they carry. Lastly, it was demonstrated how phylogenetic outlines can be applied to the phylogenetic context of microbes to evaluate their evolutionary relationships. Novel microbial genomes are efficiently compared against a database of publicly available microbial genomes to estimate their evolutionary distances to each other. These distances are then used to construct a phylogenetic outline, which is shown to be an alternative and appropriate approach to determining the phylogenetic context of novel microbial genomes. Altogether, the methods presented here progress our capabilities in the computational analysis of microbial genomes. As the rapid developments in sequencing technologies continue, the demand for novel computational methods to analyze the ever-growing size of microbial datasets will continue to exist.

Das Dokument erscheint in: