Title: Detection of rare cell populations in flow cytometry data with small training sets
Other Titles: Nachweis seltener Zellpopulationen in Durchflusszytometriedaten mit kleinen Trainingsmengen
Language: English
Authors: Weijler, Lisa Magdalena 
Qualification level: Diploma
Advisor: Reiter, Michael  
Assisting Advisor: Sablatnig, Robert  
Issue Date: 2020
Number of Pages: 63
Qualification level: Diploma
Abstract: 
Maschinelles Lernen wird für die automatische Klassifizierung von Zellpopulationen in Durchflusszytometrie (FCM)-Daten eingesetzt, mit dem Ziel, die zeitaufwändige und subjektive manuelle Analyse zu ersetzen. Welche Techniken verwendet werden, hängt vom Feld und dem Ziel der FCM-Datenanalyse ab. Herausforderungen sind unter anderem der mehrdimensionale Datenraum mit potenziell Millionen von Messpunkten und der Anteil der zu erfassenden Zellpopulationen, der so gering wie nur 0,01% sein kann. Die vorkommenden Verteilungen der Zellpopulationen sind komplex und weisen eine hohe Variabilität zwischen den Proben auf. In dieser Arbeit wird der Random-Forest-Klassifikator im Detail betrachtet und in dem komplexen Klassifikationsproblem des Krebszellnachweises in FCM-Daten von Knochenmarksproben von Patienten mit akuter lymphoblastischer Leukämie der Vorläufer B-Zellen untersucht. Es wird evaluiert wie sich Merkmalstransformation und Dimensionsreduktion mittels unüberwachter Uniform-Manifold-Approximation-Projektion (UMAP) vor der Klassifikation mittels Random-Forest auf die Ergebnisse auswirken. Beide Ansätze werden mit einer auf Gaussian Mixture Models basierenden Methode verglichen, die speziell für diese Aufgabe entwickelt wurde. Alle drei Ansätze werden für verschiedene Trainingset-Größen auf öffentlich zugänglichen Datensätzen untersucht, mit dem Hintergrund, dass bei der automatisierten FCM-Datenanalysen eine begrenzte Verfügbarkeit von Trainingsdaten angetroffen werden kann. Schließlich werden verschiedene Methoden zur Dimensionsreduktion verglichen. Der vorgestellte Ansatz basierend UMAP und RF, erweist sich als überlegen in Bezug auf den mittleren F1-Score bei Trainingsets mit weniger als 34 Proben.

Machine learning techniques are used for automated classification of cell populations in Flow Cytometry (FCM) data with the objective of superseding time-consuming and subjective manual gating. The techniques used depend on the field and the aim of the FCM data analysis. Challenges involved are the multi-dimensional observation space with potentially millions of observations and the proportion of cell populations to be detected as low as 0.01%. The naturally occurring distributions of cell populations are complex and exhibit a high inter-sample variability. In this thesis the standard, off-the-shelf random forest classifier is studied in detail and examined in the complex classification task of cancer cell detection in FCM data of bone marrow samples of precursor B acute lymphoblastic leukemia patients. The impact of feature transformation and dimension reduction with unsupervised uniform manifold approximation projection (UMAP) prior to classification is explored. Both approaches are compared to a state-of-the-art method based on Gaussian mixture models, which was specifically designed for this task. All three approaches are examined for a varying training set size on publicly available data sets, with the motivation of limited availability of training data that can be encountered in automated FCM data analysis. Finally, different dimension reduction methods are compared. The proposed semi-supervised approach based on UMAP and RF proves superior with respect to average F1-score on training sets with less than 34 samples
Keywords: Dimensionsreduktion; Maschinelles Lernen; Durchflusszytometrie; automatisiertes Gating; Akute Lymphoblastische Leukämie
dimensionality reduction; machine learning; flow cytometry; automated gating; acute lymphoblastic leukemia
URI: https://doi.org/10.34726/hss.2020.67421
http://hdl.handle.net/20.500.12708/16173
DOI: 10.34726/hss.2020.67421
Library ID: AC16071870
Organisation: E193 - Institut für Visual Computing and Human-Centered Technology 
Publication Type: Thesis
Hochschulschrift
Appears in Collections:Thesis

Files in this item:

Show full item record

Page view(s)

42
checked on Jun 22, 2021

Download(s)

52
checked on Jun 22, 2021

Google ScholarTM

Check


Items in reposiTUm are protected by copyright, with all rights reserved, unless otherwise indicated.