Title: | Detection of rare cell populations in flow cytometry data with small training sets | Language: | English | Authors: | Weijler, Lisa Magdalena | Qualification level: | Diploma | Keywords: | Dimensionsreduktion; Maschinelles Lernen; Durchflusszytometrie; automatisiertes Gating; Akute Lymphoblastische Leukämie dimensionality reduction; machine learning; flow cytometry; automated gating; acute lymphoblastic leukemia |
Advisor: | Reiter, Michael | Assisting Advisor: | Sablatnig, Robert ![]() |
Issue Date: | 2020 | Number of Pages: | 63 | Qualification level: | Diploma | Abstract: | Maschinelles Lernen wird für die automatische Klassifizierung von Zellpopulationen in Durchflusszytometrie (FCM)-Daten eingesetzt, mit dem Ziel, die zeitaufwändige und subjektive manuelle Analyse zu ersetzen. Welche Techniken verwendet werden, hängt vom Feld und dem Ziel der FCM-Datenanalyse ab. Herausforderungen sind unter anderem der mehrdimensionale Datenraum mit potenziell Millionen von Messpunkten und der Anteil der zu erfassenden Zellpopulationen, der so gering wie nur 0,01% sein kann. Die vorkommenden Verteilungen der Zellpopulationen sind komplex und weisen eine hohe Variabilität zwischen den Proben auf. In dieser Arbeit wird der Random-Forest-Klassifikator im Detail betrachtet und in dem komplexen Klassifikationsproblem des Krebszellnachweises in FCM-Daten von Knochenmarksproben von Patienten mit akuter lymphoblastischer Leukämie der Vorläufer B-Zellen untersucht. Es wird evaluiert wie sich Merkmalstransformation und Dimensionsreduktion mittels unüberwachter Uniform-Manifold-Approximation-Projektion (UMAP) vor der Klassifikation mittels Random-Forest auf die Ergebnisse auswirken. Beide Ansätze werden mit einer auf Gaussian Mixture Models basierenden Methode verglichen, die speziell für diese Aufgabe entwickelt wurde. Alle drei Ansätze werden für verschiedene Trainingset-Größen auf öffentlich zugänglichen Datensätzen untersucht, mit dem Hintergrund, dass bei der automatisierten FCM-Datenanalysen eine begrenzte Verfügbarkeit von Trainingsdaten angetroffen werden kann. Schließlich werden verschiedene Methoden zur Dimensionsreduktion verglichen. Der vorgestellte Ansatz basierend UMAP und RF, erweist sich als überlegen in Bezug auf den mittleren F1-Score bei Trainingsets mit weniger als 34 Proben. Machine learning techniques are used for automated classification of cell populations in Flow Cytometry (FCM) data with the objective of superseding time-consuming and subjective manual gating. The techniques used depend on the field and the aim of the FCM data analysis. Challenges involved are the multi-dimensional observation space with potentially millions of observations and the proportion of cell populations to be detected as low as 0.01%. The naturally occurring distributions of cell populations are complex and exhibit a high inter-sample variability. In this thesis the standard, off-the-shelf random forest classifier is studied in detail and examined in the complex classification task of cancer cell detection in FCM data of bone marrow samples of precursor B acute lymphoblastic leukemia patients. The impact of feature transformation and dimension reduction with unsupervised uniform manifold approximation projection (UMAP) prior to classification is explored. Both approaches are compared to a state-of-the-art method based on Gaussian mixture models, which was specifically designed for this task. All three approaches are examined for a varying training set size on publicly available data sets, with the motivation of limited availability of training data that can be encountered in automated FCM data analysis. Finally, different dimension reduction methods are compared. The proposed semi-supervised approach based on UMAP and RF proves superior with respect to average F1-score on training sets with less than 34 samples |
URI: | https://doi.org/10.34726/hss.2020.67421 http://hdl.handle.net/20.500.12708/16173 |
DOI: | 10.34726/hss.2020.67421 | Library ID: | AC16071870 | Organisation: | E193 - Institut für Visual Computing and Human-Centered Technology | Publication Type: | Thesis Hochschulschrift |
Appears in Collections: | Thesis |
Files in this item:
File | Description | Size | Format | |
---|---|---|---|---|
Detection of rare cell populations in flow cytometry data with small training sets.pdf | 6.96 MB | Adobe PDF | ![]() View/Open |
Page view(s)
22
checked on Feb 20, 2021
Download(s)
9
checked on Feb 20, 2021

Google ScholarTM
Check
Items in reposiTUm are protected by copyright, with all rights reserved, unless otherwise indicated.