Mujezinovic, N. (2007). Improved protein identification after fast elimination of non-interpretable peptide MS/MS spectra and noise reduction [Dissertation, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-18901
Tandem-Massenspektrometrie (MS/MS) ist die Standardmethode für die Proteinidentifikation in biologischen Präparaten. In Proteomics-Studien behindert aber die große Zahl der zu bearbeitenden MS/MS-Spektren und deren Kontaminierung mit Hintergrund-Peaks die schnelle und zuverlässige computergestützte Interpretation.<br />Typischerweise tragen weniger als 1% der Spektren pro Präparat und nur etwa 10% der Peaks pro Spektrum zum Endresultat bei. Die Hintergrund-Peaks in den Spektren stammen nicht nur von den Isotopenvarianten und mehrfach geladenen Replikaten der Peptid-Fragmentationsprodukte, sondern auch von unbekannten Fragmentationswegen, präparatspezifischen oder systematischen chemischen Kontaminationen oder vom Rauschen der empfindlichen elektronischen Nachweissysteme. Neben der dramatischen Verlängerung der Rechenzeit der Interpretationssoftware kann der Hintergrund auch zur falschen Proteinidentifikation führen, insbesondere bei de novo- Sequenzierungsalgorithmen.<br />In dieser Arbeit wurden unter anderem zwei schnelle Verfahren entwickelt, die den "Heuhaufen" der MS/MS-Daten wesentlich reduzieren:<br />(1) Sequenzleiterregeln sortieren Spektren aus, von denen sich keine Peptidsequenzen ableiten lassen. (2) Techniken auf Basis Modifizierter Fourier-Transformation löschen einen Teil des Hintergrunds in den verbleibenden Spektren. Im Durchschnitt müssen nur ca. 35% der ursprünglichen MS/MS-Spektren, die wiederum um ca. ein Viertel in ihrer Größe reduziert wurden, an die Interpretationssoftware übergeben werden. Dies wird faktisch ohne Verlust an Information und mit einer erhöhten Sequenzabdeckung erreicht, obwohl die benötigte Rechenzeit um etwa zwei Drittel reduziert wurde.<br />Der Algorithmus wurde in Form der Anwendung MS Cleaner implementiert.<br />
de
Tandem mass spectrometry (MS/MS) has become a standard method for protein identification in biological samples, but in large-scale proteomics studies, the huge number and the noise contamination of MS/MS spectra obstruct swift and reliable computer-aided interpretation. Typically, less than 1% of the spectra per sample and about 10% of the peaks per spectrum contribute to the final result. The background peaks in the spectra result not only from isotope variants and multiply charged replicates of the peptide fragmentation products but also from unknown fragmentation pathways, sample-specific or systematic chemical contaminations or from noise generated by the electronic detection system. Besides dramatically prolonged computation time, the noise can lead to incorrect protein identification, especially in the case of de novo sequencing algorithms.<br />Two fast screens can essentially reduce the haystack of MS/MS data:<br />(1) Sequence ladder rules remove spectra non-interpretable in peptide sequences.<br />(2) Modified Fourier-transform-based criteria clear background in the remaining data. On average, only a rest of 35% of the MS/MS spectra (each reduced in size by about one quarter) have to be handed over to the interpretation software with proportional decrease of computer resource consumption, essentially without loss of information and a trend to improved sequence coverage.<br />In this work, an algorithm for detection and transformation of multiply charged peaks into singly charged monoisotopic peaks, removal of heavy isotope replicates and random noise is described. The approach is based on numerical spectral analysis and signal detection methods. The algorithm has been implemented in a stand-alone computer program called MS Cleaner.