Kernel-based Machine Learning on Sequence Data from Proteomics and Immunomics

Pfeifer, Nico

Publikationsdienste
→
TOBIAS-lib - Publikationen und Dissertationen
→
7 Mathematisch-Naturwissenschaftliche Fakultät
→
Dokumentanzeige

dc.contributor.advisor	Kohlbacher, Oliver (Prof. Dr.)	de_DE
dc.contributor.author	Pfeifer, Nico	de_DE
dc.date.accessioned	2009-08-04	de_DE
dc.date.accessioned	2014-03-18T10:20:22Z
dc.date.available	2009-08-04	de_DE
dc.date.available	2014-03-18T10:20:22Z
dc.date.issued	2009	de_DE
dc.identifier.other	30933974X	de_DE
dc.identifier.uri	http://nbn-resolving.de/urn:nbn:de:bsz:21-opus-40979	de_DE
dc.identifier.uri	http://hdl.handle.net/10900/49315
dc.identifier.uri	http://nbn-resolving.org/urn:nbn:de:bsz:21-dspace-493155	de_DE
dc.identifier.uri	http://nbn-resolving.org/urn:nbn:de:bsz:21-dspace-493156	de_DE
dc.description.abstract	Biology is a large application area for machine learning techniques. Applications range from gene start prediction over prediction of drug activity to the prediction of the three-dimensional structure of proteins. This thesis deals with kernel-based machine learning in proteomics and immunomics applications. In all applications, we are interested in predicting properties of peptides, which are parts of proteins. These peptides play an important role in many biological systems. In the first part, we introduce a new kernel which can be used together with a support vector machine for predicting chromatographic separation of peptides in reversed-phase liquid chromatography and strong anion exchange solid-phase extraction. The predictor for reversed-phase liquid chromatography can be used to build a p-value-based filter for identifications in proteomics. The filter is based on the idea that if the measured and the predicted behavior differ significantly, the identified sequence is probably wrong. In this way, we can filter out false identifications. First, this is useful for increasing the precision of identifications. Second, one can lower mass spectrometric scoring thresholds and filter out false identifications to get a significant increase in the number of correctly identified spectra at comparable precision. We also show in the following section that we can extend our method to predict retention times in two-dimensional chromatographic separations, which leads to a further increase in the number of correctly identified spectra at quality comparable to the unfiltered case. The practical applicability is demonstrated by applying the methods to a whole proteome measurement of Sorangium cellulosum. We can show that we can get about 25% more spectrum identifications at the same level of precision. The next section shows that the new kernel can also be applied to the prediction of proteotypic peptides. These are peptides which can be detected by mass spectrometry-based analysis techniques and which uniquely identify a protein. We furthermore show that the resulting discriminant is very useful for discovering which amino acids influence the likelihood of a peptide to be proteotypic. The ability of a peptide to induce an immune response depends upon its binding affinity to a specialized receptor, called major histocompatibility complex (MHC) molecule. There are different variants of this receptor that can be classified into two classes. We introduce a kernel-based approach for predicting binding affinity of peptides to MHC class II molecules with high accuracy and show how to build predictors for variants of this receptor, for which no experimental data exists, based on data for other variants. This enables us to build predictors for about two thirds of all different MHC class II molecules instead of about 6%, for which predictors had already been available.	en
dc.description.abstract	Ein großes Anwendungsgebiet für Maschinelle Lernverfahren ist die Biologie. Hierbei reichen die Anwendungen von der Vorhersage von Genen über die Vorhersage der Aktivität von Wirkstoffen bis hin zur Vorhersage der dreidimensionalen Struktur eines Proteins. Im Rahmen dieser Dissertation wurden kernbasierte Lernverfahren entwickelt in den Bereichen der Proteomik und der Immunomik. Alle Anwendungen haben hierbei das Ziel, bestimmte Eigenschaften von Teilen von Proteinen, so genannten Peptiden, vorherzusagen, welche in vielen biologischen Prozessen eine wichtige Rolle spielen. Im ersten Teil der Dissertation stellen wir einen neuen Kern vor, der zusammen mit einer Support-Vektor-Maschine benutzt werden kann, um das chromatographische Verhalten von Peptiden in Umkehrphasen-Flüssigchromatographie und starker Anionenaustauschchromatographie vorherzusagen. Der Prädiktor für die Flüssigchromatographie wird daraufhin verwendet, um einen p-Wert basierten Filter für Peptididentifikationen in der Proteomik zu entwickeln. Der Filter beruht auf der Idee, dass das vorhergesagte Retentionsverhalten ähnlich zum gemessenen Verhalten sein sollte. Ist dies nicht der Fall, so ist das ein Indiz dafür, dass die identifizierte Peptidsequenz falsch ist. Hierdurch können falsch identifizierte Peptide herausgefiltert werden. Dies kann zum einen dazu verwendet werden, um die Qualität der Identifikationen zu verbessern. Zum anderen können mehr Identifikationen erhalten werden, indem auch nicht ganz sichere Identifikationen betrachtet werden, da der Filter viele falsche Identifikationen herausfiltern und somit einen guten Qualitätsgrad garantieren kann. Im darauffolgenden Abschnitt zeigen wir, dass dieses Verfahren auch für zweidimensionale Trennverfahren verallgemeinert werden kann, was zu einem weiteren Anstieg an Peptididentifikationen bei ähnlicher Qualität führt. Außerdem zeigen wir am Beispiel des Organismus Sorangium cellulosum, dass das Verfahren sehr gut für die Verbesserung der Messungen von ganzen Proteomen geeignet ist. Für diese Anwendung können wir zeigen, dass wir bei ähnlicher Präzision ca. 25% mehr Spektren identifizieren können. Der nächste Abschnitt zeigt, dass der neue Kern auch zur Vorhersage proteotypischer Peptide geeignet ist. Dies sind Peptide, die mit massenspektrometriebasierten Verfahren gemessen werden können und Proteine eindeutig identifizieren. Zusätzlich kann die gelernte Diskriminante sehr gut dafür verwendet werden um festzustellen, welche Aminosäuren an welchen Positionen die Wahrscheinlichkeit eines Peptids erhöht proteotypisch zu sein. Die Fähigkeit eines Peptids eine Immunantwort auszulösen hängt von seiner Bindeaffinität zu einem speziellen Rezeptor des Immunsystems ab, welcher MHC Rezeptor genannt wird. Es gibt verschiedene Varianten dieses Rezeptors, die in zwei Klassen eingeteilt werden können. Wir präsentieren einen kernbasierter Ansatz um die Bindeaffinität von Peptiden zu MHC Klasse II Rezeptoren präzise vorherzusagen. Außerdem zeigen wir, wie Prädiktoren für bestimmte Varianten dieses Rezeptors gebaut werden können, obwohl für sie keine experimentellen Daten verfügbar sind. Hierzu werden experimentelle Daten von anderen Varianten des Rezeptors verwendet. Durch dieses Verfahren können wir für gut zwei Drittel aller MHC Klasse II Rezeptoren Prädiktoren erstellen im Gegensatz zu ca. 6%, für die vorher Prädiktoren existierten.	de_DE
dc.language.iso	en	de_DE
dc.publisher	Universität Tübingen	de_DE
dc.rights	ubt-podok	de_DE
dc.rights.uri	http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=de	de_DE
dc.rights.uri	http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=en	en
dc.subject.classification	Maschinelles Lernen , Kernfunktion , Bioinformatik , MHC Klasse II , Chromatographie	de_DE
dc.subject.ddc	004	de_DE
dc.subject.other	Machine learning , Kernel function , Bioinformatics , MHC class II , Chromatography	en
dc.title	Kernel-based Machine Learning on Sequence Data from Proteomics and Immunomics	en
dc.title	Kernbasiertes maschinelles Lernen auf Sequenzdaten der Proteomik und Immunomik	de_DE
dc.type	PhDThesis	de_DE
dcterms.dateAccepted	2009-07-22	de_DE
utue.publikation.fachbereich	Informatik	de_DE
utue.publikation.fakultaet	7 Mathematisch-Naturwissenschaftliche Fakultät	de_DE
dcterms.DCMIType	Text	de_DE
utue.publikation.typ	doctoralThesis	de_DE
utue.opus.id	4097	de_DE
thesis.grantor	17 Fakultät für Informations- und Kognitionswissenschaften	de_DE

Dateien:	Dissertation_NicoPfeifer.pdf 6.42 MB PDF

Das Dokument erscheint in:

7 Mathematisch-Naturwissenschaftliche Fakultät [5099]

Zur Kurzanzeige

Veröffentlichen

Stöbern

Gesamter Bestand
Diese Sammlung

Mein Benutzerkonto

Einloggen

Kernel-based Machine Learning on Sequence Data from Proteomics and Immunomics

DSpace Repositorium (Manakin basiert)

Das Dokument erscheint in:

Stöbern

Gesamter Bestand

Diese Sammlung

Mein Benutzerkonto