High Accuracy Mass Spectrometry in Refinement of Genome Annotation

Krug, Karsten

Publikationsdienste
→
TOBIAS-lib - Publikationen und Dissertationen
→
7 Mathematisch-Naturwissenschaftliche Fakultät
→
Dokumentanzeige

dc.contributor.advisor	Macek, Boris (Prof. Dr.)	de_DE
dc.contributor.author	Krug, Karsten	de_DE
dc.date.accessioned	2013-09-19	de_DE
dc.date.accessioned	2014-03-18T10:27:58Z
dc.date.available	2013-09-19	de_DE
dc.date.available	2014-03-18T10:27:58Z
dc.date.issued	2013	de_DE
dc.identifier.other	393644413	de_DE
dc.identifier.uri	http://nbn-resolving.de/urn:nbn:de:bsz:21-opus-70432	de_DE
dc.identifier.uri	http://hdl.handle.net/10900/49952
dc.identifier.uri	http://nbn-resolving.org/urn:nbn:de:bsz:21-dspace-499527	de_DE
dc.identifier.uri	http://nbn-resolving.org/urn:nbn:de:bsz:21-dspace-499525	de_DE
dc.description.abstract	Major improvements in DNA sequencing technologies during the last decade gave rise to “next generation sequencing” (NGS) technology, that enables routine sampling of entire genomes and transcriptomes of various organisms; however, the annotation of the raw genome sequence remains a big challenge for ab initio gene prediction programs. Experimental evidence of gene expression at the RNA and protein level can be used to train the machine learning algorithms and greatly improves accuracy of the resulting gene predictions. While NGS can provide gene expression data at the transcript level, translational evidence of genes on a large scale can only be addressed using mass spectrometry (MS)-based proteomics. Moreover, this technology is an indispensable tool to study regulatory post translational protein modifications (PTMs) such as phosphorylation. In this work I studied to what extent high accuracy MS-based proteomics can contribute to refining genome sequencing data, which is in focus of a fast-evolving research field termed “proteogenomics”. I first addressed the main parameters of a simple proteogenomic experiment, such as the actual false discovery rate of protein database search and sequence coverage of a bacterial genome using state-of-the-art MS technology. To that end I used a comprehensive proteome dataset of the model gram negative bacterium Escherichia coli, comprising its complete expressed proteome in exponential growth, and applied this approach to its well characterized genome. This analysis demonstrated a substantial underestimation of the false discovery rate in a commonly used proteogenomics workflow and pointed to the need for further improvement of sequence coverage in shotgun proteomic experiments. I further demonstrated the utility of proteogenomics in annotation of protein coding regions of a complex, eukaryotic genome on the example of Pristionchus pacificus, a model nematode increasingly used in evolutionary biology. The application led to the identification of several thousand novel peptide sequences that were used, together with transcriptomic data, to refine the existing genome annotation. Finally, I studied functional aspects of the refined P. pacificus proteome by using data from an in-depth phosphoproteomic study which enabled me to describe functional categories of detected P. pacificus phosphoproteins, to define its kinome and to perform a comparative analysis with a recent phosphoproteomics study of the model nematode Caenorhabditis elegans. Taken together, this work demonstrates the value of high accuracy MS based proteomics in refinement of genome sequencing data.	en
dc.description.abstract	Im Verlauf des letzten Jahrzehnts führten wesentliche Verbesserungen der Techniken zur DNA Sequenzierung zu einer neuen Generation von Sequenzierungstechnologien („next generation sequencing“, NGS), welche eine routinemäßige Sequenzierung ganzer Genome und Transkriptome verschiedenster Organismen ermöglichte. Die Annotation der Genomsequenz stellt nach wie vor eine Herausforderung für Programme zur ab initio Genvorhersage dar, welche auf Algorithmen des maschinellen Lernens basieren. Experimentelle Bestätigung von Genexpression auf RNA- und Proteinebene kann dazu verwendet werden, die Genauigkeit der Genvorhersagen enorm zu verbessern. Während NGS Technologien Genexpressionsdaten auf der Ebene der Transkription generieren, kann die Bestätigung der Translation global nur mittels Massenspektrometrie (MS)-basierter Proteomik analysiert werden. Darüber hinaus stellt diese Technologie ein unverzichtbares Werkzeug zur Untersuchung regulatorischer, posttranslationaler Proteinmodifikationen (PTM), wie zum Beispiel Phosphorylierung, dar. In dieser Arbeit untersuche ich, in welchem Umfang hochgenaue, MS-basierte Proteomik zur Verbesserung der Annotation von genomischen Sequenzierdaten beitragen kann, welches im Fokus einer sich rasant entwickelten Forschungszweigs namens „Proteogenomik“ steht. Zuerst untersuche ich grundlegende Parameter eines einfachen proteogenomischen Experimentes, wie zum Beispiel die eigentliche Fehlerrate (false discovery rate, FDR) und Sequenzabdeckung eines bakteriellen Genoms mittels modernster MS Technologie gewonnener Daten. Hierzu verwende ich einen umfassenden Proteomdatensatz des gram-negativen Modelbakteriums Escherichia coli, bestehend aus allen exprimierten Proteinen der exponentiellen Wachstumsphase, und wende diesen auf das sehr gut charakterisierte Genom des Bakteriums an. Dieser Versuch zeigte eine erhebliche Unterschätzung der Fehlerrate (FDR) einer häufig verwendeten Vorgehensweise, und deutete auf die Notwendigkeit hin, die Sequenzabdeckung MS-basierter Proteomik zu verbessern. Des Weiteren demonstriere ich den Nutzen eines proteogenomischen Experiments bei der Annotation Protein kodierender Bereiche eines komplexen, eukaryotischen Genoms am Beispiel des Fadenwurms Pristionchus pacificus, welcher vermehrt als Modellorganismus in der Evolutionsbiologie verwendet wird. Das Experiment führte zur Identifikation mehrerer Tausend, bisher unbekannter Peptidsequenzen. Diese wurden zusammen mit Transkriptionsdaten dazu verwendet, die existierende Annotation des Genoms zu verbessern. Abschließend betrachte ich die verbesserte Annotation des P. pacificus Proteoms, um dessen funktionelle Aspekte zu untersuchen. Dazu verwende ich Daten eines MS-basierten Experiments zur globalen Identifikation von Proteinphosphorylierungsstellen, um die phosphorylierten Proteine funktionell zu chrakterisieren, das Kinom des Organismus zu bestimmen und die gewonnenen Ergebnisse mit einer jüngst veröffentlichten Studie des Phosphoproteoms des Modellorganismus Caenorhabditis elegans zu vergleichen. Zusammengenommmen demonstriert diese Arbeit den Nutzen hochgenauer MS-basierter Proteomik in der Verbesserung von Genomsequenzierungsdaten.	de_DE
dc.language.iso	en	de_DE
dc.publisher	Universität Tübingen	de_DE
dc.rights	ubt-podok	de_DE
dc.rights.uri	http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=de	de_DE
dc.rights.uri	http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=en	en
dc.subject.classification	Proteomanalyse , Genomik , Massenspektrometrie , Bioinformatik	de_DE
dc.subject.ddc	570	de_DE
dc.subject.other	Proteogenomics , Mass spectrometry , Next-generation sequencing , Bioinformatics	en
dc.title	High Accuracy Mass Spectrometry in Refinement of Genome Annotation	en
dc.title	Hochgenaue Massenspektrometrie zur Verbesserung genomischer Annotationen	de_DE
dc.type	PhDThesis	de_DE
dcterms.dateAccepted	2013-07-23	de_DE
utue.publikation.fachbereich	Biologie	de_DE
utue.publikation.fakultaet	7 Mathematisch-Naturwissenschaftliche Fakultät	de_DE
dcterms.DCMIType	Text	de_DE
utue.publikation.typ	doctoralThesis	de_DE
utue.opus.id	7043	de_DE
thesis.grantor	7 Mathematisch-Naturwissenschaftliche Fakultät	de_DE

Dateien:	PhD_thesis_Krug.pdf 22.5 MB PDF

Das Dokument erscheint in:

7 Mathematisch-Naturwissenschaftliche Fakultät [5052]

Zur Kurzanzeige

Veröffentlichen

Stöbern

Gesamter Bestand
Diese Sammlung

Mein Benutzerkonto

Einloggen

High Accuracy Mass Spectrometry in Refinement of Genome Annotation

DSpace Repositorium (Manakin basiert)

Das Dokument erscheint in:

Stöbern

Gesamter Bestand

Diese Sammlung

Mein Benutzerkonto