Title: Improved protein identification after fast elimination of non-interpretable peptide MS/MS spectra and noise reduction
Language: English
Authors: Mujezinovic, Nedim 
Qualification level: Doctoral
Keywords: background; removal; peptide; MS-MS; spectrum; processing
Advisor: Raidl, Günther
Eisenhaber, Frank 
Referee: Raidl, Günther
Varmuza, Kurt
Issue Date: 2007
Number of Pages: 134
Qualification level: Doctoral
Abstract: 
Tandem-Massenspektrometrie (MS/MS) ist die Standardmethode für die Proteinidentifikation in biologischen Präparaten. In Proteomics-Studien behindert aber die große Zahl der zu bearbeitenden MS/MS-Spektren und deren Kontaminierung mit Hintergrund-Peaks die schnelle und zuverlässige computergestützte Interpretation.
Typischerweise tragen weniger als 1% der Spektren pro Präparat und nur etwa 10% der Peaks pro Spektrum zum Endresultat bei. Die Hintergrund-Peaks in den Spektren stammen nicht nur von den Isotopenvarianten und mehrfach geladenen Replikaten der Peptid-Fragmentationsprodukte, sondern auch von unbekannten Fragmentationswegen, präparatspezifischen oder systematischen chemischen Kontaminationen oder vom Rauschen der empfindlichen elektronischen Nachweissysteme. Neben der dramatischen Verlängerung der Rechenzeit der Interpretationssoftware kann der Hintergrund auch zur falschen Proteinidentifikation führen, insbesondere bei de novo- Sequenzierungsalgorithmen.
In dieser Arbeit wurden unter anderem zwei schnelle Verfahren entwickelt, die den "Heuhaufen" der MS/MS-Daten wesentlich reduzieren:
(1) Sequenzleiterregeln sortieren Spektren aus, von denen sich keine Peptidsequenzen ableiten lassen. (2) Techniken auf Basis Modifizierter Fourier-Transformation löschen einen Teil des Hintergrunds in den verbleibenden Spektren. Im Durchschnitt müssen nur ca. 35% der ursprünglichen MS/MS-Spektren, die wiederum um ca. ein Viertel in ihrer Größe reduziert wurden, an die Interpretationssoftware übergeben werden. Dies wird faktisch ohne Verlust an Information und mit einer erhöhten Sequenzabdeckung erreicht, obwohl die benötigte Rechenzeit um etwa zwei Drittel reduziert wurde.
Der Algorithmus wurde in Form der Anwendung MS Cleaner implementiert.

Tandem mass spectrometry (MS/MS) has become a standard method for protein identification in biological samples, but in large-scale proteomics studies, the huge number and the noise contamination of MS/MS spectra obstruct swift and reliable computer-aided interpretation. Typically, less than 1% of the spectra per sample and about 10% of the peaks per spectrum contribute to the final result. The background peaks in the spectra result not only from isotope variants and multiply charged replicates of the peptide fragmentation products but also from unknown fragmentation pathways, sample-specific or systematic chemical contaminations or from noise generated by the electronic detection system. Besides dramatically prolonged computation time, the noise can lead to incorrect protein identification, especially in the case of de novo sequencing algorithms.
Two fast screens can essentially reduce the haystack of MS/MS data:
(1) Sequence ladder rules remove spectra non-interpretable in peptide sequences.
(2) Modified Fourier-transform-based criteria clear background in the remaining data. On average, only a rest of 35% of the MS/MS spectra (each reduced in size by about one quarter) have to be handed over to the interpretation software with proportional decrease of computer resource consumption, essentially without loss of information and a trend to improved sequence coverage.
In this work, an algorithm for detection and transformation of multiply charged peaks into singly charged monoisotopic peaks, removal of heavy isotope replicates and random noise is described. The approach is based on numerical spectral analysis and signal detection methods. The algorithm has been implemented in a stand-alone computer program called MS Cleaner.
URI: https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-18901
http://hdl.handle.net/20.500.12708/14584
Library ID: AC05034578
Organisation: E186 - Institut für Computergraphik und Algorithmen 
Publication Type: Thesis
Hochschulschrift
Appears in Collections:Thesis

Show full item record

Page view(s)

10
checked on Feb 18, 2021

Download(s)

51
checked on Feb 18, 2021

Google ScholarTM

Check


Items in reposiTUm are protected by copyright, with all rights reserved, unless otherwise indicated.