Posekany, A. (2009). Robustness issues of Bayesian analysis of microarray data [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-29371
In the past years many statistical methods and tools have been developed for the analysis of microarrays. Although it is a well-known problem that microarrays often produce widely dispersed data, little considerations about the robustification of the current methodology have been made. This work tests a possible approach of robustifying a hierarchical Bayesian ANOVA model, which is specifically designed for the analysis of microarrays, with respect to its underlying error model. Additionally, it means to provide an understanding of the differences of results compared to the standard model and their differing biological implications.<br />The core of the method is the model selection of a fitting likelihood function from a set of noncentral student's t distributions of different degrees of freedom and normal distributions. A hybrid MCMC sampler has been designed and implemented in Matlab in order to perform the model inference. It has been tested with several artificial and biological data sets.<br />Applying the method to different biological settings, has provided a clear answer to the question: is student's t distribution a more reasonable model distribution for such data sets? Student's t distributions with low degrees of freedom are generally preferred as error model. More importantly the results showed that differences between the robust (student's t) and the standard (Gaussian) model not only occurred in the statistical inference, but also led to different biological conclusions which were drawn based on Gene Ontology analysis.<br />Thus this work shows the importance of handling the choice of model likelihood with great care in the field of microarray analysis.<br />
en
In der Vergangenheit wurden viele statistische Methoden und Werkzeuge zur Analyse von Microarraydaten entwickelt. Obwohl es ein bekanntes Problem ist, dass Microarrays oft stark gestreute Daten produzieren, machen sich bekannte Methode wenig Gedanken über Robustheit. Diese Arbeit testet einen möglichen Ansatz für die Robustifizierung eines hierarchischen Bayes'schen ANOVA Modells, das in Hinblick auf das zugrundeliegende Fehlermodell speziell für die Analyse von Microarraydaten designt wurde. Außerdem soll es Einblick in die Unterschiede in den statistischen Resultaten und deren biologischen Schlussfolgerungen verglichen mit dem Standardmodell bieten. Das Herz der Methode ist die Modellselektion einer passenden Likelihoodfunktion aus einer Menge von Student's t Verteilungen mit unterschiedlichen Freiheitsgraden und Normalverteilungen.Ein Hybrid MCMC Algorithmus wurde designt und in Matlab implementiert, um die Modellinferenz durchzuführen. Dieser wurde mit mehreren künstlichen und biologischen Datensätzen getestet. Die Anwendung des Algorithmus auf verschiedene biologische Fragestellungen hat eine klare Antwort gebracht auf die Frage: ist eine t-Verteilung ein sinnvolles Modell für diese art von Daten?t-Verteilungen mit niedrigen Freiheitsgraden werden generell als Fehlermodell vorgezogen. Noch wichtiger ist, dass die Resultate zeigen konnten, dass Unterschiede zwischen dem robusten (t) Modell und dem Gauss-Modell nicht nur in der statistischen Inferenz auftreten, sondern auch zu unterschiedlichen biologischen Schlussfolgerungen führen. Diese Atrbeit zeigt damit, dass die Wahl der Likelihoodfunktion eines Modells gerade in der Microarraydatenanalyse mit großer Sorgfalt passieren muss.<br />