<div class="csl-bib-body">
<div class="csl-entry">Weijler, L. M. (2020). <i>Detection of rare cell populations in flow cytometry data with small training sets</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2020.67421</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2020.67421
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/16173
-
dc.description
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers
-
dc.description.abstract
Maschinelles Lernen wird für die automatische Klassifizierung von Zellpopulationen in Durchflusszytometrie (FCM)-Daten eingesetzt, mit dem Ziel, die zeitaufwändige und subjektive manuelle Analyse zu ersetzen. Welche Techniken verwendet werden, hängt vom Feld und dem Ziel der FCM-Datenanalyse ab. Herausforderungen sind unter anderem der mehrdimensionale Datenraum mit potenziell Millionen von Messpunkten und der Anteil der zu erfassenden Zellpopulationen, der so gering wie nur 0,01% sein kann. Die vorkommenden Verteilungen der Zellpopulationen sind komplex und weisen eine hohe Variabilität zwischen den Proben auf. In dieser Arbeit wird der Random-Forest-Klassifikator im Detail betrachtet und in dem komplexen Klassifikationsproblem des Krebszellnachweises in FCM-Daten von Knochenmarksproben von Patienten mit akuter lymphoblastischer Leukämie der Vorläufer B-Zellen untersucht. Es wird evaluiert wie sich Merkmalstransformation und Dimensionsreduktion mittels unüberwachter Uniform-Manifold-Approximation-Projektion (UMAP) vor der Klassifikation mittels Random-Forest auf die Ergebnisse auswirken. Beide Ansätze werden mit einer auf Gaussian Mixture Models basierenden Methode verglichen, die speziell für diese Aufgabe entwickelt wurde. Alle drei Ansätze werden für verschiedene Trainingset-Größen auf öffentlich zugänglichen Datensätzen untersucht, mit dem Hintergrund, dass bei der automatisierten FCM-Datenanalysen eine begrenzte Verfügbarkeit von Trainingsdaten angetroffen werden kann. Schließlich werden verschiedene Methoden zur Dimensionsreduktion verglichen. Der vorgestellte Ansatz basierend UMAP und RF, erweist sich als überlegen in Bezug auf den mittleren F1-Score bei Trainingsets mit weniger als 34 Proben.
de
dc.description.abstract
Machine learning techniques are used for automated classification of cell populations in Flow Cytometry (FCM) data with the objective of superseding time-consuming and subjective manual gating. The techniques used depend on the field and the aim of the FCM data analysis. Challenges involved are the multi-dimensional observation space with potentially millions of observations and the proportion of cell populations to be detected as low as 0.01%. The naturally occurring distributions of cell populations are complex and exhibit a high inter-sample variability. In this thesis the standard, off-the-shelf random forest classifier is studied in detail and examined in the complex classification task of cancer cell detection in FCM data of bone marrow samples of precursor B acute lymphoblastic leukemia patients. The impact of feature transformation and dimension reduction with unsupervised uniform manifold approximation projection (UMAP) prior to classification is explored. Both approaches are compared to a state-of-the-art method based on Gaussian mixture models, which was specifically designed for this task. All three approaches are examined for a varying training set size on publicly available data sets, with the motivation of limited availability of training data that can be encountered in automated FCM data analysis. Finally, different dimension reduction methods are compared. The proposed semi-supervised approach based on UMAP and RF proves superior with respect to average F1-score on training sets with less than 34 samples
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Dimensionsreduktion
de
dc.subject
Maschinelles Lernen
de
dc.subject
Durchflusszytometrie
de
dc.subject
automatisiertes Gating
de
dc.subject
Akute Lymphoblastische Leukämie
de
dc.subject
dimensionality reduction
en
dc.subject
machine learning
en
dc.subject
flow cytometry
en
dc.subject
automated gating
en
dc.subject
acute lymphoblastic leukemia
en
dc.title
Detection of rare cell populations in flow cytometry data with small training sets
en
dc.title.alternative
Nachweis seltener Zellpopulationen in Durchflusszytometriedaten mit kleinen Trainingsmengen
de
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2020.67421
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Lisa Magdalena Weijler
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
dc.contributor.assistant
Sablatnig, Robert
-
tuw.publication.orgunit
E193 - Institut für Visual Computing and Human-Centered Technology
-
dc.type.qualificationlevel
Diploma
-
dc.identifier.libraryid
AC16071870
-
dc.description.numberOfPages
63
-
dc.thesistype
Diplomarbeit
de
dc.thesistype
Diploma Thesis
en
dc.rights.identifier
In Copyright
en
dc.rights.identifier
Urheberrechtsschutz
de
tuw.advisor.staffStatus
staff
-
tuw.assistant.staffStatus
staff
-
tuw.advisor.orcid
0000-0002-8004-6839
-
tuw.assistant.orcid
0000-0003-4195-1593
-
item.languageiso639-1
en
-
item.openairetype
master thesis
-
item.grantfulltext
open
-
item.fulltext
with Fulltext
-
item.cerifentitytype
Publications
-
item.mimetype
application/pdf
-
item.openairecristype
http://purl.org/coar/resource_type/c_bdcc
-
item.openaccessfulltext
Open Access
-
crisitem.author.dept
E193-01 - Forschungsbereich Computer Vision
-
crisitem.author.orcid
0000-0003-1660-0329
-
crisitem.author.parentorg
E193 - Institut für Visual Computing and Human-Centered Technology