Title: A Workflow for single cell RNA sequencing analysis with the goal of a robust and comprehensible clustering by cell populations
Other Titles: Ein Workflow für die Einzelzell-RNA-Sequenzierungsanalyse mit dem Ziel eines robusten und nachvollziehbaren Clusterings nach Zellpopulationen
Language: English
Authors: Reichl, Stephan 
Qualification level: Diploma
Advisor: Grill, Karl 
Issue Date: 2018
Number of Pages: 105
Qualification level: Diploma
Abstract: 
Die Sequenzierungsmethoden der zweiten Generation (engl. next generation sequencing), deren Ziel es ist Teile der DNA zu entschlüsseln, durchliefen in den letzten Jahren rapide Entwicklungen. Eine der neuesten Entwicklungen ermöglicht es Wissenschaftlern, die Genexpression von einzelnen Zellen zu quantifizieren, und zwar Einzelzell-RNA (= Transkriptom) Sequenzierung (engl. single cell RNA sequencing). Eine neue Technologie ermöglicht es Forschern eine neue Ära der Einzelzell-RNA Sequenzierung und damit die Erforschung von biologischen Mechanismen auf zellulärer Ebene einzuläuten. Durch die Anwendung dieser neuartigen Technologie wird eine noch nie da gewesene Art von Daten generiert. Daraus resultieren neue Herausforderungen auf dem Gebiet der Bioinformatik, zum Beispiel eine sehr hohe Dimensionalität in großen Datensätzen, Anfälligkeit für Störfaktoren, Einschränkungen bei Visualisierungen, hohe Rauschanteile und unzulängliche Ergebnisse in der Clusteranalyse. Die Literatur empfiehlt, diese Herausforderungen mit Verfahren wie Qualitätskontrolle, Normalisierung, Störfaktoranalyse, Dimensionsreduktion und Clusteranalyse zu bewältigen. Diese Arbeit konzentriert sich auf die Entwicklung, Verifizierung und Validierung eines solchen Workflows, der alle neu entstandenen Herausforderungen adressiert. Der Workflow basiert auf den theoretischen Überlegungen unserer vorherigen Arbeit in diesem Bereich. Hauptziel ist eine robuste und nachvollziehbare Clusterfindung anhand von Zellpopulationen durch den Einsatz von hauptsächlich automatisierten Methoden. Der Workflow wird mit Hilfe von simulierten Datensätzen verifiziert, die gezielt generiert wurden, um Einzelzell-RNA-Sequenzierungsdaten zu entsprechen. Am Ende validieren wir den Workflow durch die Analyse eines realen öffentlich verfügbaren Datensatzes aus der Literatur und durch den Vergleich der Ergebnisse und biologischen Interpretation mit bereits vorhandenen Erkenntnissen.

Next generation sequencing, transcribing parts of the DNA, underwent drastic developments in the last years. One of the newest developments enables researchers to extract gene expression data from single cells, namely single cell RNA (transcriptome) sequencing. A new technology introduces researchers to a new era of single cell sequencing and thereby understanding mechanisms in biology on a single cell level. With this new technology a new kind of data is generated. Therefore, new challenges emerged in the field of computational biology, for example very high dimensionality within large data sets, susceptibility to confounding factors, limitations in visualizing the data, high levels of noise and lacking confidence in clustering results. The literature recommends to address these challenges with procedures such as quality control, normalization, confounding factor analysis, dimensionality reduction and clustering. The major challenge is to determine the right methods and developing a best practice workflow for the rigorous analysis of such data. This work focuses on the development, verification and validation of such a workflow. The workflow is based on theoretical considerations of our previous work in this field. The main goal is to achieve a robust clustering by cell populations through the application of mostly automated and comprehensible methods. The workflow is verified with the help of simulated datasets, which were specifically designed to resemble single cell RNA sequencing datasets. In the end we validate the workflow through the analysis of a real publicly available dataset from the literature and by comparing the results and biological interpretation with discoveries made by the community.
Keywords: Single Cell RNA Analyse
Single Cell RNA Analysis
URI: https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-119413
http://hdl.handle.net/20.500.12708/7933
Library ID: AC15224439
Organisation: E105 - Institut für Stochastik und Wirtschaftsmathematik 
Publication Type: Thesis
Hochschulschrift
Appears in Collections:Thesis

Files in this item:

Show full item record

Page view(s)

7
checked on Apr 28, 2021

Download(s)

49
checked on Apr 28, 2021

Google ScholarTM

Check


Items in reposiTUm are protected by copyright, with all rights reserved, unless otherwise indicated.