Reichl, S. (2018). Mathematical methods in single cell RNA sequencing analysis with an emphasis on the validation of clustering results [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2018.49662
E105 - Institut für Stochastik und Wirtschaftsmathematik
-
Date (published):
2018
-
Number of Pages:
126
-
Keywords:
Single cell RNA sequencing; statistics; cluster analysis
en
Abstract:
Die Sequenzierungsmethoden der zweiten Generation (engl. next generation sequencing) durchliefen in den letzten Jahren rapide Entwicklungen. Eine der neuesten Entwicklungen ermöglicht es Wissenschaftlern Genexpressionsdaten von einzelnen Zellen zu ermitteln. Eine dieser Technologien schaffte es die Einzelzell-RNA (Transkriptom) -Sequenzierung (engl. single cell RNA sequencing) an die Spitze dieses Forschungsgebietes zu katapultieren, da sie einen hohen Durchsatz und präzise Sequenzierungsinformationen für einen Bruchteil der Kosten zur Verfügung stellt. Diese Technologie wird als “micro-droplet sequencing” bezeichnet und basiert auf dem Prinzip die Zellen vor dem Sequenzierungsprozess durch das Einschließen in Tröpfchen mit Hilfe von Mikrofluidik zu isolieren. Diese neue Technologie ermöglicht es Forschern eine neue Ära der Einzelzell-Sequenzierung einzuläuten und damit die Erforschung von biologischen Mechanismen auf zellulärer Ebene voran zu treiben. Verschiedene Anwendungen sind die Entdeckung neuer Zelltypen, die Identifikation von Angriffspunkten in der Medikamentenentwicklung und die Beobachtung biologischer Reaktionen auf zellulärer Ebene, um nur einige wenige zu nennen. Durch die Anwendung dieser neuartigen Technologie wird eine noch nie dagewesene Art von Daten generiert. Aufgrund der höheren Empfindlichkeit solcher Sequenzierungsverfahren treten, wegen äußerer Einflüsse, viele Störungen (Rauschen) oder möglicherweise verzerrte Messungen auf. Gleichzeitig hat die Datenmenge signifikant zugenommen, was zu hochdimensionalen Problemstellungen in großen Datensätzen führt. Obwohl den Daten mehr Dimensionen hinzugefügt werden, sind die meisten davon nur sehr dünnbesetzt und erschweren daher die Analyse. Mehr denn je sind komplexe Algorithmen und mathematische Methoden erforderlich, um diese sehr dünnbesetzten, hochdimensionalen und verrauschten Datensätze professionell verarbeiten zu können. Diese Arbeit konzentriert sich auf die mathematischen Methoden, die für die Analyse von Einzelzell-RNA-Sequenzierungs-Daten (engl. scRNAseq data) verwendet werden. Dafür konstruieren wir einen mathematischen Rahmen, der es ermöglicht den Prozess der scRNAseq-Analyse auf eine rigorose Weise zu beschreiben. Das Ziel ist es verschiedene Methoden für jede der identifizierten Vorgehensweisen im Prozess der scRNAseq-Analyse zu finden, zu beschreiben und zu vergleichen. Diese Vorgehensweisen inkludieren unter anderem Qualitätskontrolle, Normalisierung, Identifikation und Entfernung von Störfaktoren sowie Dimensionsreduktion und Clustering mit geeigneten Visualisierungen. Für jeden dieser Schritte sind mathematische Methoden erforderlich und wir versuchen die besten Ansätze zur Überwindung dieser neuen Herausforderungen zu finden und zu diskutieren. Darüber hinaus konzentrieren wir uns auf die Validierung von Clustering-Ergebnissen innerhalb der scRNAseq-Analyse und entwickeln zwei Ansätze, um diese Problemstellung zu bewältigen. Alle beschriebenen und entwickelten Methoden werden auf einen simulierten Datensatz, basierend auf einem realen scRNAseq-Datensatz, angewendet und zum besseren Verständnis und zur Validierung präsentiert.
de
Next generation sequencing underwent drastic developments in the last years. One of the newest developments enables researchers to extract gene expression data from single cells. One of these techniques managed to catapult single cell RNA (transcriptome) sequencing to the top of the field, because it provides high throughput and high accuracy sequencing information for a fraction of the costs. This technology is called micro-droplet sequencing and is based on the principle of separating the cells before the sequencing process by encapsulating them into droplets with the help of microfluidics. This new technology introduces researchers to a new era of single cell sequencing and thereby understanding of the mechanisms in biology on a single cell level. Different applications are the discovery of new cell types, identification of targets for drug development or the observation of biological reactions on a cellular level to name just a few. With this new technology a new kind of data is generated. Due to the higher sensitivity of such sequencing processes we have to deal with a lot of noise or potentially distorted measurements due to environmental factors. At the same time the amount of data increased significantly, which results in high dimensional problems on large datasets.
en
Additional information:
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers