| dc.contributor.advisor |
Weigel, Detlef (Prof. Dr.) |
|
| dc.contributor.author |
Buchfink, Benjamin J. |
|
| dc.date.accessioned |
2025-10-28T11:35:00Z |
|
| dc.date.available |
2025-10-28T11:35:00Z |
|
| dc.date.issued |
2023 |
|
| dc.identifier.uri |
http://hdl.handle.net/10900/171670 |
|
| dc.identifier.uri |
http://nbn-resolving.org/urn:nbn:de:bsz:21-dspace-1716705 |
de_DE |
| dc.identifier.uri |
http://dx.doi.org/10.15496/publikation-112997 |
|
| dc.description.abstract |
Pairwise alignment of protein sequences is a fundamental method of
bioinformatics. Since the advent of Next Generation Sequencing, the arising
quantities of sequence data have grown exponentially. In the context of
metagenomics studies, DNA in the order of terabases is sequenced from the
environment or host organisms, and sensitive protein alignment is a key method to
investigate the enormous diversity of microbial life. In the context of evolutionary
studies, pairwise protein alignment enables the detection of distantly related
sequences that have diverged over billions of years. The standard software for
protein alignment is NCBI BLAST, whose computational performance is not sufficient
to process currently existing quantities of data, requiring decades to analyse large
datasets. This is due to the fundamental algorithmic hardness of the alignment
problem on proteins down to 20% sequence identity, for which no efficient solutions
are known. In this work I present the protein aligner DIAMOND, whose first version
was up to 20,000-fold faster than BLAST for short read alignment, and 650 to 2,500-
fold faster in its sensitive mode that was already suitable for a broad range of
applications. Furthermore, I present the enhanced version DIAMOND v2 which
achieves a speedup of 80 to 360 vs BLAST at comparable sensitivity, a speedup of
12 to 15 vs the competitor tool MMseqs2, and a speedup of 6 to 8 vs the first version
of DIAMOND. Central algorithmic aspects are multiple spaced seeds that drastically
improve the specificity of seeding, and furthermore the double indexing of query and
target sequences allowing the efficient processing of seed hits with improved use of
the CPU caches. Lastly, the consequent optimisation of the processing pipeline using
SIMD instructions and suitable heuristics is important to increase the performance
substantially beyond the level of elementary approaches. |
en |
| dc.description.abstract |
Paarweises Alignment von Proteinsequenzen ist eine grundlegende
Analysemethode der Bioinformatik. Seit dem Aufkommen von Next-Generation-
Sequencing haben die anfallenden Sequenzdatenmengen einem exponentiellen
Wachstum unterlegen. Insbesondere im Rahmen von Metagenomik-Studien wird
DNA in der Größenordnung von Terabasen aus der Umwelt oder Wirtsorganismen
sequenziert, und sensitives Sequenzalignment auf Proteinebene ist eine
Schlüsselmethode, um die enorme Vielfalt mikrobiellen Lebens zu erforschen. Im
Rahmen evolutionärer Studien ermöglicht es das paarweise Proteinalignment,
entfernt verwandte Sequenzen zu erkennen, die über Milliarden von Jahren
voneinander divergiert sind. Als Standardsoftware für Proteinalignment gilt NCBI
BLAST, dessen rechnerische Leistungsfähigkeit nicht ausreichend ist, um
gegenwärtig existierenden Datenmengen gerecht zu werden, und eine Rechenzeit
von Jahrzehnten zur Auswertung großer Datensätze benötigen würde. Dies hängt
mit der grundsätzlichen algorithmischen Schwere des Alignmentproblems auf
Proteinen mit bis zu 20% Sequenzidentität hinunter ab, für das keine effizienten
Lösungen bekannt sind. In dieser Arbeit wird der Proteinaligner DIAMOND
vorgestellt, dessen erste Version bis zu 20.000-fach schneller als BLAST für das
Alignment von Short Reads ist, sowie 650 bis 2.500-fach schneller in seinem
sensitiven Modus, der bereits für ein breites Anwendungsspektrum geeignet ist.
Darüber hinaus wird die Weiterentwicklung DIAMOND v2 vorgestellt, die einen
Speedup von 80 bis 360 gegenüber BLAST bei vergleichbarer Sensitivität erreicht,
sowie von 12 bis 15 gegenüber der Konkurrenzsoftware MMseqs2 und 6 bis 8
gegenüber der ersten Version von DIAMOND. Algorithmisch zentrale Aspekte sind
zum einen mehrfache spaced Seeds, mit denen die Spezifität des Seedings
entscheidend verbessert wird. Zum anderen ist dies die doppelte Indexierung von
Query- und Targetsequenzen, die eine effiziente Verarbeitung der Seedtreffer unter
verbesserter Ausnutzung der CPU-Caches ermöglicht. Zuletzt ist die konsequente
Optimierung der Verabeitungspipeline durch SIMD-Instruktionen und geeignete
Heuristiken wichtig, um die Performance wesentlich über das Niveau elementarer
Ansätze hinaus zu steigern. |
de_DE |
| dc.language.iso |
en |
de_DE |
| dc.publisher |
Universität Tübingen |
de_DE |
| dc.rights |
ubt-podno |
de_DE |
| dc.rights.uri |
http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=de |
de_DE |
| dc.rights.uri |
http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=en |
en |
| dc.subject.classification |
Bioinformatik |
de_DE |
| dc.subject.ddc |
004 |
de_DE |
| dc.subject.ddc |
500 |
de_DE |
| dc.subject.ddc |
570 |
de_DE |
| dc.subject.other |
Sequenzalignment |
de_DE |
| dc.subject.other |
Proteinalignment |
de_DE |
| dc.subject.other |
sequence analysis |
en |
| dc.subject.other |
Sequenzanalyse |
de_DE |
| dc.subject.other |
sequence alignment |
en |
| dc.subject.other |
protein alignment |
en |
| dc.title |
Sensitive Protein Alignments at Tree-of-Life Scale Using DIAMOND |
en |
| dc.type |
PhDThesis |
de_DE |
| dcterms.dateAccepted |
2023-07-11 |
|
| utue.publikation.fachbereich |
Informatik |
de_DE |
| utue.publikation.fakultaet |
7 Mathematisch-Naturwissenschaftliche Fakultät |
de_DE |
| utue.publikation.noppn |
yes |
de_DE |