Platzer, A. (2014). Analysis of most complete biological datasets: : Graph algorithms, combinatorics, GWAS, dimension reduction and classification in omics data [Dissertation, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2014.24728
E166 - Inst. f. Verfahrenstechnik, Umwelttechnik und Techn. Biowissenschaften
-
Date (published):
2014
-
Number of Pages:
159
-
Keywords:
NGS; bioinformatics; genomics; transriptomics
en
Abstract:
Already a few years ago reports appeared in popular computer science magazines that molecular biology data is exponentially growing [1]. More recently, there have been concerns that NGS/sequencing data is growing faster than computer storage capacities, despite the exponential growth of this storage [2, 3]. This thesis deals with these large amounts of data, therefore this work is clearly located in the field of bioinformatics. Additionally, the classic paradigm of 'one gene/protein - one function or phenotype' has shifted from being the main approach to just one of several options, with most of these combining large amounts of information to arrive at a conclusion [4-7]. Several terms exist for this: systems biology, the -omics field, integrative analysis, and a few more. The present work makes a broad sweep of the field, from whole genome microarrays, through metabolomics, to sequencing data, with sidetracks into the complexities of a combinatorial problem, dimension reduction, and transposons. The steady goal is to gain general insights into the full data collection and/or to indicate other promising procedures. The work on differentially expressed genes in tumors started with the diploma thesis of the applicant and was continued in a later article. The main result is that, although the overlaps of differential expressed genes in tumors from the same tumor type seem random, these gene lists share elements on a protein interaction network level. The observation of metabolite levels from tissues is still an immature field; currently, several 100 different metabolites can be distinguished. At the time of the dataset for my analysis, about 100 metabolites had been safely identified. In comparison to the pn (i.e., many more variables than data records) problems in bioinformatics, this is rather a standard problem and a classification can be made with known machine learning methods. We were thus able to create classification models by which we could identify key metabolites in renal cell carcinoma. NGS data is basically a paragon for pn data, and this situation will not change for a while since several million variations can be found in a population with feasible levels of effort but far fewer than a million individuals are usually sequenced. In some cases, more variations may be found than individuals that even exist for the sequenced species. These datasets present certain issues, which can be summarized by the curse of dimensionality and potential population structure. Since I have been working for the last few years on the 1001 Genomes Project [8], my main data source was the largest collection of sequenced Arabidopsis thaliana. As a model species, A. thaliana offers several advantages: it is fast growing; recombinant inbred lines are possible; the genome is quite small; and there are no ethical concerns. On the other hand, it is a 'mere weed'. For such pn data, a subfield of machine learning, dimension reduction, is very helpful. We combined these fields for visualization and added a new measure of the 'quality' of the visualizations. For the transposons hidden in the 1001 genomes data, we developed a new transposon caller tool, which leverages our data in a better way. PhD thesis, page 3 Additional challenges in a project of this scale are data collection, organization, development of other calling pipelines, a final consistency check, and of course selling it reasonable high as paper(s). Apart from the last point, where I was just one in a group of people involved, the remaining points were headed up by me for a longer phase in the project. Another result that arose within the above mentioned data sets is the solution of the combinatorial problem of getting an exact p-value when putative regulations are inferred and the unbiased validation is a set of proven transcription factors (TRANSFAC database [9]). The outcome is that an exact solution is possible with a computational complexity of O(n 3). This work resulted in some publications and several useful insights, which are unfortunately not enough for full papers. These latter are also described here.
en
Bereits vor etlichen Jahren wurden in Computerzeitschriften molekularbiologische Daten als exponentiell wachsend aufgezählt [1]. In jüngerer Zeit wird dieses Wachstum bei Sequenzierungsdaten mit Sorge betrachtet, weil sie schneller wachsen als die Datenspeicher, obwohl deren Wachstum exponentiell ist [2, 3]. In dieser Arbeit werden diese riesigen Datenmengen behandelt und analysiert, damit fällt diese Arbeit eindeutig in das Forschungsgebiet Bioinformatik. Zusätzlich hat sich der klassische Ansatz 'ein Gen/Protein - eine Funktion/Phänotyp' vom Hauptansatz zu einem Ansatz unter mehreren entwickelt, die meisten ([4-7]) davon kombinieren eine Menge Informationen für das Ergebnis. Für diese gibt es die Begriffe: Systembiologie, den Bereich der -omiks, integrative Analyse und einige mehr. Diese Arbeit spannt einen großen Bogen von vollständigen Microarrays über Metabolitdaten zu Sequenzdaten, mit Seitensträngen in die Tiefe eines kombinatorischen Problems, Dimensionsreduktion und Transposons. Das Ziel ist dabei immer in der gesamten Datensammlung generelle Eigenschaften zu finden, bzw. aussichtsreiche weitere Verfahren. Die Arbeit an differentiell exprimierten Genen von Tumoren fing mit meiner Diplomarbeit an und setzte sich zu einem Artikel nach Ende fort. Das Hauptergebnis darin: Obwohl die Schnittmengen von differentiell exprimierten Genen in Tumoren, von verschiedenen Artikeln zum gleichen Tumortyp, wie zufällig sind, haben diese Genlisten etwas im Proteininteraktionsnetzwerk gemeinsam. Die Extraktion von Metabolitkonzentrationen von Geweben ist nach wie vor ein junges Feld, aktuell können einige 100 verschiedene Metaboliten unterschieden werden. Zur Zeit der Daten für meine Analyse waren es etwa 100. Im Vergleich zu den pn (das heißt einiges mehr an Variablen als Datensätze) Problemen in der Bioinformatik ist das eher ein Standardproblem und eine Klassifikation kann mit bekannten machine learning Methoden gemacht werden. Damit waren wir in der Lage Klassifikationsmodelle zu erzeugen mit denen wir Schlüsselmetabolite in Nierenkarzinome finden konnten. NGS Daten sind mehr oder weniger ein Paradebeispiel für pn Daten und werden es noch einige Zeit bleiben, da in einer Population einige Millionen von Variationen mit vertretbaren Aufwand gefunden werden können, aber für gewöhnlich weit weniger als eine Million Individuen sequenziert werden. In einigen Fällen können mehr Variationen gefunden werden, als von der untersuchten Spezies überhaupt Individuen existieren. Mit diesen Daten gehen einige Probleme einher, welche folgendermaßen zusammengefasst werden können: Der Fluch der Dimensionalität und Populationsstruktur. Da ich in den letzten Jahren im 1001 Genomes Project gearbeitet habe ist meine Hauptdatenquelle die größte Sammlung von sequenzierten Arabidopsis thaliana. A. thaliana als Modellorganismus hat einige Vorteile: Wächst schnell, Inzuchtlinien sind einfach machbar, das Genom ist relativ klein und es gibt für diese Spezies keine ethischen Bedenken. Auf der anderen Seite könnte man zu Arabidopsis thaliana auch Unkraut sagen. PhD thesis, page 5 Für solche pn Daten ist eine Teildisziplin von machine learning, Dimensionsreduktion, sehr hilfreich. Wir kombinierten diese Disziplinen für Visualisierung und fanden eine neue Maßzahl für die Güte die Visualisierung. Für die Transposons, die sich in den Sequenzdaten des 1001 Genomes Project verborgen hielten, entwickelten wir eine neue Methode die vorhandenen Daten besser nützt. Auch eine Herausforderung in einem Projekt dieser Größe sind die Sammlung der Daten, die Organisation, die Entwicklung zusätzlicher Analysemodule, die Endprüfung der Konsistenz und das möglichst gute Verkaufen als Artikel(n). Abgesehen vom letzten Punkt an dem ich als einer unter einigen Leuten beteiligt war/bin, liefen/laufen die anderen Punkte über längere Phasen des Projekts hauptsächlich zu mir. Eine weitere abgeschlossene Nebengeschichte ergab sich aus dem kombinatorischen Problem einen exakten p-Wert zu bekommen, wenn mögliche Regulationen generiert werden und die unverzerrte Validierung eine Liste von Transkriptionsfaktoren sind (TRANSFAC Datenbank [9]). Das Ergebnis ist dass eine Lösung in O(n 3) möglich ist. Diese Arbeit führte zu einigen Artikeln und noch zu einigen mehr an Erkenntnissen die leider keine ganzen Artikel wert sind; hier wird auch letzteres präsentiert.