<div class="csl-bib-body">
<div class="csl-entry">Reichl, S. (2018). <i>Mathematical methods in single cell RNA sequencing analysis with an emphasis on the validation of clustering results</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2018.49662</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2018.49662
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/3488
-
dc.description
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers
-
dc.description.abstract
Die Sequenzierungsmethoden der zweiten Generation (engl. next generation sequencing) durchliefen in den letzten Jahren rapide Entwicklungen. Eine der neuesten Entwicklungen ermöglicht es Wissenschaftlern Genexpressionsdaten von einzelnen Zellen zu ermitteln. Eine dieser Technologien schaffte es die Einzelzell-RNA (Transkriptom) -Sequenzierung (engl. single cell RNA sequencing) an die Spitze dieses Forschungsgebietes zu katapultieren, da sie einen hohen Durchsatz und präzise Sequenzierungsinformationen für einen Bruchteil der Kosten zur Verfügung stellt. Diese Technologie wird als “micro-droplet sequencing” bezeichnet und basiert auf dem Prinzip die Zellen vor dem Sequenzierungsprozess durch das Einschließen in Tröpfchen mit Hilfe von Mikrofluidik zu isolieren. Diese neue Technologie ermöglicht es Forschern eine neue Ära der Einzelzell-Sequenzierung einzuläuten und damit die Erforschung von biologischen Mechanismen auf zellulärer Ebene voran zu treiben. Verschiedene Anwendungen sind die Entdeckung neuer Zelltypen, die Identifikation von Angriffspunkten in der Medikamentenentwicklung und die Beobachtung biologischer Reaktionen auf zellulärer Ebene, um nur einige wenige zu nennen. Durch die Anwendung dieser neuartigen Technologie wird eine noch nie dagewesene Art von Daten generiert. Aufgrund der höheren Empfindlichkeit solcher Sequenzierungsverfahren treten, wegen äußerer Einflüsse, viele Störungen (Rauschen) oder möglicherweise verzerrte Messungen auf. Gleichzeitig hat die Datenmenge signifikant zugenommen, was zu hochdimensionalen Problemstellungen in großen Datensätzen führt. Obwohl den Daten mehr Dimensionen hinzugefügt werden, sind die meisten davon nur sehr dünnbesetzt und erschweren daher die Analyse. Mehr denn je sind komplexe Algorithmen und mathematische Methoden erforderlich, um diese sehr dünnbesetzten, hochdimensionalen und verrauschten Datensätze professionell verarbeiten zu können. Diese Arbeit konzentriert sich auf die mathematischen Methoden, die für die Analyse von Einzelzell-RNA-Sequenzierungs-Daten (engl. scRNAseq data) verwendet werden. Dafür konstruieren wir einen mathematischen Rahmen, der es ermöglicht den Prozess der scRNAseq-Analyse auf eine rigorose Weise zu beschreiben. Das Ziel ist es verschiedene Methoden für jede der identifizierten Vorgehensweisen im Prozess der scRNAseq-Analyse zu finden, zu beschreiben und zu vergleichen. Diese Vorgehensweisen inkludieren unter anderem Qualitätskontrolle, Normalisierung, Identifikation und Entfernung von Störfaktoren sowie Dimensionsreduktion und Clustering mit geeigneten Visualisierungen. Für jeden dieser Schritte sind mathematische Methoden erforderlich und wir versuchen die besten Ansätze zur Überwindung dieser neuen Herausforderungen zu finden und zu diskutieren. Darüber hinaus konzentrieren wir uns auf die Validierung von Clustering-Ergebnissen innerhalb der scRNAseq-Analyse und entwickeln zwei Ansätze, um diese Problemstellung zu bewältigen. Alle beschriebenen und entwickelten Methoden werden auf einen simulierten Datensatz, basierend auf einem realen scRNAseq-Datensatz, angewendet und zum besseren Verständnis und zur Validierung präsentiert.
de
dc.description.abstract
Next generation sequencing underwent drastic developments in the last years. One of the newest developments enables researchers to extract gene expression data from single cells. One of these techniques managed to catapult single cell RNA (transcriptome) sequencing to the top of the field, because it provides high throughput and high accuracy sequencing information for a fraction of the costs. This technology is called micro-droplet sequencing and is based on the principle of separating the cells before the sequencing process by encapsulating them into droplets with the help of microfluidics. This new technology introduces researchers to a new era of single cell sequencing and thereby understanding of the mechanisms in biology on a single cell level. Different applications are the discovery of new cell types, identification of targets for drug development or the observation of biological reactions on a cellular level to name just a few. With this new technology a new kind of data is generated. Due to the higher sensitivity of such sequencing processes we have to deal with a lot of noise or potentially distorted measurements due to environmental factors. At the same time the amount of data increased significantly, which results in high dimensional problems on large datasets.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Single cell RNA sequencing
en
dc.subject
statistics
en
dc.subject
cluster analysis
en
dc.title
Mathematical methods in single cell RNA sequencing analysis with an emphasis on the validation of clustering results
en
dc.title.alternative
Mathematische Methoden in der Einzelzell-RNA-Sequenzierungsanalyse mit Schwergewicht auf der Validierung von Ergebnissen der Clusteranalyse
de
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2018.49662
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Stephan Reichl
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
tuw.publication.orgunit
E105 - Institut für Stochastik und Wirtschaftsmathematik
-
dc.type.qualificationlevel
Diploma
-
dc.identifier.libraryid
AC15010381
-
dc.description.numberOfPages
126
-
dc.identifier.urn
urn:nbn:at:at-ubtuw:1-111763
-
dc.thesistype
Diplomarbeit
de
dc.thesistype
Diploma Thesis
en
dc.rights.identifier
In Copyright
en
dc.rights.identifier
Urheberrechtsschutz
de
tuw.advisor.staffStatus
staff
-
item.languageiso639-1
en
-
item.openairetype
master thesis
-
item.grantfulltext
open
-
item.fulltext
with Fulltext
-
item.cerifentitytype
Publications
-
item.mimetype
application/pdf
-
item.openairecristype
http://purl.org/coar/resource_type/c_bdcc
-
item.openaccessfulltext
Open Access
-
crisitem.author.dept
E101 - Institut für Analysis und Scientific Computing