Renner, E. (2016). Statistical preliminaries of using classifiers to detect malignant melanoma in infrared hyperspectral images [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2016.40009
E164 - Institut für Chemische Technologien und Analytik
-
Date (published):
2016
-
Number of Pages:
118
-
Keywords:
Chemometrie; Hyperspectral Imaging; Melanome
de
chemometrics; hyperspectral imaging; melanoma
en
Abstract:
Künstliche Datensätze wurden erzeugt um die Auswirkung von unterschiedlichen Eigenschaften spektraler Daten auf die Leistungsstärke von Klassifikationsalgorithmen zu untersuchen. Die generierten Datensätze, welche spektrale Daten repräsentieren, basieren auf zwei unterschiedlichen Modellen und werden zudem in ihren Eigenschaften (Rauschen, Größe des Trainingsdatensatzes, Dimension des Datenraums und Separierbarkeit der Klassen) variiert. Anschließend wird die Leistung ausgewählter Klassifikationsalgorithmen ($k$ Nearest Neighbor, Partial Least Squares Discriminant Analysis, Random Forest) für die erstellten Datensätze analysiert. Diese Studie betont den Einfluss hoch dimensionaler Datenräume (große Anzahl an gewählten Variablen) auf die Verteilung der Daten im Merkmalsraum und damit auch auf die Leistung der Klassifikationsalgorithmen. Die gewonnenen Erkenntnisse werden angewandt um mittels IR - Imaging FFPE-Gewebeschnitte zu klassifizieren und malignes Melanom zu erkennen. Verschiedene Transformationen der spektralen Daten aus dem Fingerprint-Bereich werden verwendet um Deskriptoren zu erstellen, welche ein hohes Ausmaß an chemischer Information beinhalten. Mittels der definierten Deskriptoren wird ein Random Forest Modell erstellt, welches die Klassifikation unterschiedlicher Gewebe (Epidermis, Bindegewebe in verschiedenen Formen, Melanom, Ulzeration) an neuen Gewebeschnitten ermöglicht.
de
The effect of various attributes of spectroscopic data on the performance of selected classification algorithms is investigated by creating artificial datasets. Datasets are generated based on two different models and varied in noise, training data size, dimensionality of the data space and class separability. Subsequently the performance of selected classification algorithms ($k$ Nearest Neighbors, Partial Least Squares Discriminant Analysis, Random Forest) is estimated. This study emphasizes the impact of high dimensions (large number of features) on the data distribution and on the classification performance. The acquired knowledge is applied when classifying tissue types and detecting malignant melanoma in infrared hyperspectral images of paraffin embedded skin tissue sections. Based on various transformations of the spectra in the fingerprint range, selected spectral attributes are identified to encode maximum chemical information. Those features are used for building Random Forest classifiers to enable tissue identification (epidermis, different kinds of connective tissue, malignant melanoma, ulceration) of new samples.
en
Additional information:
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers