Reichl, S. (2018). A Workflow for single cell RNA sequencing analysis with the goal of a robust and comprehensible clustering by cell populations [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2018.59723
E105 - Institut für Stochastik und Wirtschaftsmathematik
-
Date (published):
2018
-
Number of Pages:
105
-
Keywords:
Single Cell RNA Analyse
de
Single Cell RNA Analysis
en
Abstract:
Die Sequenzierungsmethoden der zweiten Generation (engl. next generation sequencing), deren Ziel es ist Teile der DNA zu entschlüsseln, durchliefen in den letzten Jahren rapide Entwicklungen. Eine der neuesten Entwicklungen ermöglicht es Wissenschaftlern, die Genexpression von einzelnen Zellen zu quantifizieren, und zwar Einzelzell-RNA (= Transkriptom) Sequenzierung (engl. single cell RNA sequencing). Eine neue Technologie ermöglicht es Forschern eine neue Ära der Einzelzell-RNA Sequenzierung und damit die Erforschung von biologischen Mechanismen auf zellulärer Ebene einzuläuten. Durch die Anwendung dieser neuartigen Technologie wird eine noch nie da gewesene Art von Daten generiert. Daraus resultieren neue Herausforderungen auf dem Gebiet der Bioinformatik, zum Beispiel eine sehr hohe Dimensionalität in großen Datensätzen, Anfälligkeit für Störfaktoren, Einschränkungen bei Visualisierungen, hohe Rauschanteile und unzulängliche Ergebnisse in der Clusteranalyse. Die Literatur empfiehlt, diese Herausforderungen mit Verfahren wie Qualitätskontrolle, Normalisierung, Störfaktoranalyse, Dimensionsreduktion und Clusteranalyse zu bewältigen. Diese Arbeit konzentriert sich auf die Entwicklung, Verifizierung und Validierung eines solchen Workflows, der alle neu entstandenen Herausforderungen adressiert. Der Workflow basiert auf den theoretischen Überlegungen unserer vorherigen Arbeit in diesem Bereich. Hauptziel ist eine robuste und nachvollziehbare Clusterfindung anhand von Zellpopulationen durch den Einsatz von hauptsächlich automatisierten Methoden. Der Workflow wird mit Hilfe von simulierten Datensätzen verifiziert, die gezielt generiert wurden, um Einzelzell-RNA-Sequenzierungsdaten zu entsprechen. Am Ende validieren wir den Workflow durch die Analyse eines realen öffentlich verfügbaren Datensatzes aus der Literatur und durch den Vergleich der Ergebnisse und biologischen Interpretation mit bereits vorhandenen Erkenntnissen.
de
Next generation sequencing, transcribing parts of the DNA, underwent drastic developments in the last years. One of the newest developments enables researchers to extract gene expression data from single cells, namely single cell RNA (transcriptome) sequencing. A new technology introduces researchers to a new era of single cell sequencing and thereby understanding mechanisms in biology on a single cell level. With this new technology a new kind of data is generated. Therefore, new challenges emerged in the field of computational biology, for example very high dimensionality within large data sets, susceptibility to confounding factors, limitations in visualizing the data, high levels of noise and lacking confidence in clustering results. The literature recommends to address these challenges with procedures such as quality control, normalization, confounding factor analysis, dimensionality reduction and clustering. The major challenge is to determine the right methods and developing a best practice workflow for the rigorous analysis of such data. This work focuses on the development, verification and validation of such a workflow. The workflow is based on theoretical considerations of our previous work in this field. The main goal is to achieve a robust clustering by cell populations through the application of mostly automated and comprehensible methods. The workflow is verified with the help of simulated datasets, which were specifically designed to resemble single cell RNA sequencing datasets. In the end we validate the workflow through the analysis of a real publicly available dataset from the literature and by comparing the results and biological interpretation with discoveries made by the community.
en
Additional information:
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers