A comparison of machine learning techniques for the detection of microplastics

Schedl, Linda

doi:10.34726/hss.2020.75743

Record link:

https://doi.org/10.34726/hss.2020.75743
http://hdl.handle.net/20.500.12708/16363

Title:

A comparison of machine learning techniques for the detection of microplastics

Citation:

Schedl, L. (2020). A comparison of machine learning techniques for the detection of microplastics [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2020.75743

reposiTUm DOI:

10.34726/hss.2020.75743

CatalogPlus:

AC16086278

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Schedl, Linda

Advisor:

Lohninger, Johann

Organisational Unit:

E164 - Institut für Chemische Technologien und Analytik

Date (published):

2020

Number of Pages:

Keywords:

machine learning; microplastic; hyperspectral imaging; classification

Abstract:

Mikroplastik ist nicht nur in Meer- und Abwasser gefunden worden, sondern auch in Frisch- und Trinkwasser. Die Analyse dieser Plastikpartikeln beinhaltet die Probenentnahme und deren Aufarbeitung im Labor sowie die abschließende Identifikation. Fourier-Transform-Infrarot (FTIR) Spektren können dazu verwendet werden, um Mikroplastik zu charakterisieren, indem sie mit Hilfe von Maschinellem Lernen klassifiziert werden. Die Python-Bibliothek Scikit-learn bietet eine Vielzahl an Methoden für diesen Bereich. Außerdem kann die Software ImageLab verwendet werden, um FTIR Spektren von Mikroplastik zu klassifizieren.Drei verschiedene Algorithmen für die Klassifizierung von Mikroplastik wurden in dieser Arbeit miteinander verglichen. Im Speziellen wurden k Nearest Neighbors (kNN) und Support Vector Machine (SVM) Klassifikatoren mit Hilfe von Scikit-learn implementiert. Das Training der kNN und SVM Klassifikatoren beinhaltet auch eine Hyper-Parameter Optimierung, um die besten Einstellungen für den Algorithmus zu finden. Außerdem wurden noch die in ImageLab bereits vorhandenen Random Decision Forest (RDF) Klassifikatoren ausgewertet.Die Genauigkeit und der Matthews Korrelationskoeffizient des RDF zeigten ähnliche Werte wie SVM und waren nur geringfügig besser als bei kNN. SVM weist lange Trainingszeiten auf und kNN lange Anwendungszeiten. Der erstgenannte Punkt ist nur ein kleineres Problem, da das Training nur einmal durchgeführt werden muss. Der zweitgenannte Punkt limitiert jedoch kNN in der praktischen Anwendung, da dort oft sehr große Datenmengen analysiert werden müssen.Die Klassifikation von Mischspektren zeigte, dass kNN und SVM dazu tendieren, einzelne Pixel verschiedenen Klassen zuzuordnen, die tatsächlich gar nicht vorhanden sind. Im Gegensatz dazu, weist der RDF Klassifikator nur die beiden vorhandenen Polymer-Klassen oder die Non-Polymer-Klasse zu. Diese falsch klassifizierten Pixel bei kNN und SVM können möglicherweise durch die Nachverarbeitung verhindert werden. Dabei wird die Ausgabe der binären Klassifikatoren weiterverarbeitet anstatt nur die wahrscheinlichste Klasse zuzuordnen.

Microplastics (MPs) have been detected in marine and waste water as well as in samples of fresh and drinking-water. The analysis of these particles consists of sampling and laboratory preparation as well as identification. Fourier-transform infrared (FTIR) spectra can be used to characterize microplastics because they show characteristic peak patterns. These spectra can be classified with the aid of supervised learning algorithms. The Python library Scikit-learn offers a variety of methods in this field. Furthermore, ImageLab can be used to classify FTIR spectra of microplastics.Three supervised learning algorithms for the classification of microplastics were compared within this thesis. In particular, k nearest neighbors (kNN) and support vector machine (SVM) classifiers implemented with Scikit-learn were evaluated as well as random decision forest (RDF) classifiers available in ImageLab. The training of kNN and SVM classifiers required a hyper-parameter tuning to find the optimal settings.The accuracy and Matthews Correlation Coefficient scores of RDF were similar to SVM and only slightly better than kNN. SVM exhibits long training times and kNN long prediction times. The first problem is a minor one because the training only has to be done once. The second problem indeed is a limit of kNN for practical applications where large data sets have to be analyzed.The classification of spectral mixtures revealed that the kNN and SVM classifiers tend to assign single pixels to classes that were actually not present. In contrast, the RDF classifier almost never assigns another class than those of the two mixed polymer spectra or the Non-Polymer class. These misclassified pixels for kNN and SVM may be addressed by applying post processing to the output of the binary classifiers rather than just assigning the most probable class.

Additional information:

Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers

License:

In Copyright

Appears in Collections:

Thesis