Dusberger, F. (2012). Improving the protein identification performance in high-resolution mass spectrometry data [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-59974
bioinformatics; mass spectrometry; spectrum processing; spectrum cleaning; peak-picking
en
Abstract:
Die Proteomik befasst sich mit der Struktur und Funktion von Proteinen. Der am weitesten verbreitete Ansatz zur Analyse von Proteinen ist die "bottom-up"-Analyse, bei der ein Protein zuerst in kleinere Peptide verdaut wird, welche dann mittels LC-MS/MS analysiert werden, um die Identität des ursprünglichen Proteins zu bestätigen. Um diese Peptide analysieren zu können, werden sie zunächst mittels Flüssigchromatographie (LC) aufgetrennt. Anschließend wird deren Masse-zu-Ladung-Verhältnis im Massenspektrometer gemessen und in Form von MS1-Spektren aufgezeichnet. Ausgewählte Peptide (Precursor) werden fragmentiert, was zu MS2-Spektren der jeweiligen Fragmentionen führt (MS/MS). Diese Hochdurchsatzexperimente erzeugen immense Datenmengen und werden als Shotgun Protemoics-Experimente bezeichnet.<br />Diese große Menge an Rohdaten muss durch adäquate Methoden analysiert werden, um so viele nützliche Informationen, wie möglich zu extrahieren und überflüssige, redundante Teile herauszufiltern. Die verbreiteten Datenbank-Suchmaschinen, die zur Identifikation der Peptide mittels ihrer Masse und der zugehörigen MS2-Spektren herangezogen werden, verwerfen zur Zeit einen Großteil der Informationen im MS2-Spektrum.<br />Zudem wird der Vorteil der hohen Massengenauigkeit, welche mit den modernsten Massenspektrometern erreichbar ist, durch die Geräte selbst wieder eingebüßt. Dies hat den Grund, dass die MS2-Spektren der Peptide in der Regel nicht zum optimalen Zeitpunkt, zu dem die Intensität des Peptids am größten ist, aufgenommen werden. Um diesen Nachteilen entgegenzuwirken, sind ausgefeilte Methoden für entsprechendes Preprocessing der Spektren nötig.<br />In dieser Diplomarbeit untersuchen wird zwei Arten von Preprocessing-Methoden für MS2-Spektren, mit dem Ziel die Anzahl der Spektren, die identifiziert werden können zu erhöhen, indem der Identifizierungsprozess, der von der Datenbanksuchmaschine durchgeführt wird, vereinfacht wird.<br />Erstens werden verschiedene MS2-Deisotoping und -Deconvolution Methoden untersucht, welche das Ziel haben, Isotopen-Peaks und Peaks mehrfach geladener Varianten der Analytpeptide zu entfernen. Durch die Vergrößerung des Suchraums beeinträchtigen diese Peaks unnötigerweise die Leistung der Suchmaschine. Wir führen aus, dass die Algorithmen das Vertrauen in die korrekte Identifikation von Peptiden durch das Entfernen von Peaks, vor allem aus den Bereichen um die korrekten Fragment-Peaks, welche andernfalls das Finden dieser korrekten Peaks erschweren würden, erhöht. Außerdem zeigen wir, dass diese Methoden nichtsdestotrotz durch das Design der Scoring-Algorithmen verbreiteter Suchmaschinen eingeschränkt sind.<br />Zweitens entwickeln wir einen 3d-Peak-Picking Algorithmus, der sich im Bezug auf die Masse der Peptide nicht allein auf die Infomation des einzelnen MS1-Spektrums verlässt, aus welchem das Peptid zur Fragmentierung ausgewählt wurde. Es wird statt dessen zusätzlich das Elutionsprofil des Peptids rekonstruiert, wobei viele Datenpaunkte erfasst werden, um einen statistisch zuverlässigen Wert für die Masse zu erhalten. Somit ist es möglich die Information, die durch die hohe Massengenauigkeit erreichbar ist voll und ganz zu nutzen. Unsere Experimente zeigen, dass die Peptidmassen, welche aus den rekonstruierten 3d-Peaks berechnet wurden, im Vergleich zu den vom Gerät zur Verfügung gestellten Massen, eine wesentlich höhere Präzision besitzen. Darauf aufbauend zeigen wir zudem, dass diese hohe Präzision die Anzahl der identifizierten Peptide, vor allem für strenge Suchtoleranzen, steigert.<br />Aus den entwickelten Algorithmen ist ein Plugin für ein kommerziell verfügbares Softwarepaket (Proteome Discoverer von Thermo Fisher Scientific) entstanden, welches nun in der Proteomikgruppe von Karl Mechtler eingesetzt wird. Zudem ist dieses Plugin kostenlos zum Download verfügbar.<br />
de
The field of proteomics is concerned with the study of structure and function of proteins. The most commonly used approach for the analysis of proteins is the bottom-up analysis where a protein is first digested into smaller peptides which are then analyzed by LC-MS/MS in order to confirm the identity of the original protein. To analyze these peptides they are first separated via liquid chromatography (LC) before their mass-over-charge ratios are recorded in the mass spectrometer as MS1-spectra. Selected peptides (precursors) are fragmented yielding MS2-spectra of their respective fragment ions (MS/MS). These high-throughput experiments generate vast amounts of data and are referred to as shotgun proteomics experiments.<br />For the large amount of raw data an appropriate data analysis is required in order to extract as much useful information as possible and filter out superfluous and redundant parts. However, common database search engines, which are used for identification of the peptides using their masses and the associated MS2-spectra, currently throw away most of the information contained in MS2-spectra. Moreover, the benefit of the high mass-accuracy provided by state of the art mass spectrometers is forfeited by the instruments themselves, as the MS2-spectra of the peptides are usually not recorded at the optimal time point where the intensity of the specific peptide is highest. To compensate for these drawbacks sophisticated methods are necessary that can preprocess the spectra accordingly.<br />In this thesis we studied the application of two ways of MS2-spectrum preprocessing to increase the number of spectra that can be identified by facilitating the identification step of the database search engine.<br />First, different MS2-deisotoping and -deconvolution methods were analyzed which aim for the removal of isotope peaks and peaks of multiply-charged variants of the analyte peptides. These peaks unnecessarily impair the search engine's performance by increasing the search space. We demonstrate that the algorithms raise the confidence in correct identifications by eliminating obstructing peaks, especially from the areas around correct fragment peaks. Furthermore, we show that these methods are nonetheless limited due to the design of the scoring algorithms of common search engines.<br />Secondly, to fully exploit the information that is made available through high mass-accuracy, we developed a 3d-peak picking algorithm that does not rely on the peptide mass information of the single MS1-spectrum it was selected from for fragmentation but additionally reconstructs the peptide's elution profile gathering many data points to obtain a statistically confident value for the mass. Experiments demonstrated that peptide masses calculated from reconstructed 3d-peaks have a significantly higher precision than using the conventional precursor mass values provided by the instrument. We show that the high precision also increases the identification performance, especially for strict search tolerances.<br />The designed algorithms were implemented in a plugin for a commercially available software package (Proteome Discoverer by Thermo Fisher Scientific) which is now used in the proteomics group of Karl Mechtler.<br />Moreover, the plugin is available for download, free of charge.