Weijler, L. M. (2020). Detection of rare cell populations in flow cytometry data with small training sets [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2020.67421
Maschinelles Lernen wird für die automatische Klassifizierung von Zellpopulationen in Durchflusszytometrie (FCM)-Daten eingesetzt, mit dem Ziel, die zeitaufwändige und subjektive manuelle Analyse zu ersetzen. Welche Techniken verwendet werden, hängt vom Feld und dem Ziel der FCM-Datenanalyse ab. Herausforderungen sind unter anderem der mehrdimensionale Datenraum mit potenziell Millionen von Messpunkten und der Anteil der zu erfassenden Zellpopulationen, der so gering wie nur 0,01% sein kann. Die vorkommenden Verteilungen der Zellpopulationen sind komplex und weisen eine hohe Variabilität zwischen den Proben auf. In dieser Arbeit wird der Random-Forest-Klassifikator im Detail betrachtet und in dem komplexen Klassifikationsproblem des Krebszellnachweises in FCM-Daten von Knochenmarksproben von Patienten mit akuter lymphoblastischer Leukämie der Vorläufer B-Zellen untersucht. Es wird evaluiert wie sich Merkmalstransformation und Dimensionsreduktion mittels unüberwachter Uniform-Manifold-Approximation-Projektion (UMAP) vor der Klassifikation mittels Random-Forest auf die Ergebnisse auswirken. Beide Ansätze werden mit einer auf Gaussian Mixture Models basierenden Methode verglichen, die speziell für diese Aufgabe entwickelt wurde. Alle drei Ansätze werden für verschiedene Trainingset-Größen auf öffentlich zugänglichen Datensätzen untersucht, mit dem Hintergrund, dass bei der automatisierten FCM-Datenanalysen eine begrenzte Verfügbarkeit von Trainingsdaten angetroffen werden kann. Schließlich werden verschiedene Methoden zur Dimensionsreduktion verglichen. Der vorgestellte Ansatz basierend UMAP und RF, erweist sich als überlegen in Bezug auf den mittleren F1-Score bei Trainingsets mit weniger als 34 Proben.
de
Machine learning techniques are used for automated classification of cell populations in Flow Cytometry (FCM) data with the objective of superseding time-consuming and subjective manual gating. The techniques used depend on the field and the aim of the FCM data analysis. Challenges involved are the multi-dimensional observation space with potentially millions of observations and the proportion of cell populations to be detected as low as 0.01%. The naturally occurring distributions of cell populations are complex and exhibit a high inter-sample variability. In this thesis the standard, off-the-shelf random forest classifier is studied in detail and examined in the complex classification task of cancer cell detection in FCM data of bone marrow samples of precursor B acute lymphoblastic leukemia patients. The impact of feature transformation and dimension reduction with unsupervised uniform manifold approximation projection (UMAP) prior to classification is explored. Both approaches are compared to a state-of-the-art method based on Gaussian mixture models, which was specifically designed for this task. All three approaches are examined for a varying training set size on publicly available data sets, with the motivation of limited availability of training data that can be encountered in automated FCM data analysis. Finally, different dimension reduction methods are compared. The proposed semi-supervised approach based on UMAP and RF proves superior with respect to average F1-score on training sets with less than 34 samples
en
Additional information:
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers