Weinwurm, S. (2013). Bayesian variable selection in genome-wide association studies [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-51511
The work confronts a common challenge arising from genome-wide association studies. The ultimate goal of genome-wide association studies is to identify the true subset of single nucleotide polymorphisms(SNPs), specific locations within an organism's genome, strongly influencing a certain characteristic, such as a trait or disease. This problem has often been tackled by using methods such as hybrid correlation-based search, a modification of a method called stochastic search variable selection, as well as penalized regression methods namely lasso and ridge regression. Due to their generality, these methods are not limited to genome analysis; in fact, they are applicable to a variety of large scale regression problems.<br />Typical state of the art genome-wide association studies comprise hundreds of thousands or even millions of SNPs in contrast with a much lower number of genomes. The above mentioned approaches are capable of dealing with situations where the number of variables (SNPs) exceeds the number of observations (phenotypes); also known as pn problems. The work at hand discusses modifications of the methods mentioned above to improve performance in terms of variable selection and prediction.<br />Furthermore, all methods, as well as their modifications, are evaluated and compared in settings of highly correlated datasets, as is common in genome-wide association studies.<br />
en
Die vorliegende Arbeit beschäftigt sich mit einer häufigen Problemstellung in genomweiten Assoziationsstudien. Das Ziel dieser Studien ist es sogenannte Single Nucleotide Polymorphismen (SNP), Stellen in Genomen von Organismen die sich zwischen Individuen unterscheiden, zu entdecken, welche ein bestimmtes Merkmal bzw. Charakteristik beeinflussen und prägen. Diese Merkmale werden auch Phänotyp genannt. Die untersuchten Merkmale variieren je nach Interesse und Forschungsfeld und reichen von gewissen Charakterzügen über das Auftreten bestimmter Krankheiten bis hin zu evolutionären Aspekten.<br />Für diese Aufgabenstellung werden oftmals Methoden wie Hybrid Correlation-based Search, Stochastic Search Variable Selection oder Penalized-Regression Methoden wie Lasso oder Ridge Regression verwendet. Diese Methoden können aufgrund ihrer Generalität nicht nur für Genomanalysen verwendet werden, sondern auch für viele andere Large-Scale Regressionsprobleme.<br />Heutige genomweite Assoziationsstudien beinhalten hunderttausend bis hin zu Millionen von Single-Nucleotide Polymorphismen im Gegensatz zu einer wesentlich geringeren Anzahl an sequenzierten Genomen. Die erwähnten Methoden sind in der Lage mit dieser Bedingungen umzugehen, wobei die Anzahl an Variablen (SNPs) die Anzahl der Beobachtungen (Phenotypen) bei weitem übersteigen, auch bekannt als pn Probleme. Die Arbeit behandelt Verbesserungen und Modifikationen der oben erwähnten Methoden um die Variablenselektion sowie die Vorhersage ungesehener Phänotypen zu verbessern. Des weiteren werden die Methoden, sowie die vorgeschlagenen Verbesserungen, anhand von hoch korrelierten Datensätzen, wie sie oft in genomweiten Assoziationsstudien auftreten, verglichen und evaluiert.<br />