Hufnagl, B. (2022). Structural aspects of hyperspectral imaging data: a case study on microplastics analysis from the viewpoint of chemometrics [Dissertation, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2022.75740
E164 - Institut für Chemische Technologien und Analytik
-
Date (published):
2022
-
Number of Pages:
1
-
Keywords:
Hyperspectral Imaging; Mikroplastik; Chemometrie; Klassifikation von IR Spektren
de
hyperspectral imaging; microplastics; chemometrics; classification of IR spectra
en
Abstract:
Mikroplastik ist ein allgegenwärtiger Umweltschadstoff, der in fast jedem Lebensraum auf der Erde nachgewiesen wurde. Aufgrund des Mangels an representativen Daten lassen sich die potenziell schädlichen Auswirkungen auf die Umwelt und die menschliche Gesundheit jedoch noch immer nicht bestimmen. In den letzten fünf Jahren ist das Interesse an diesem Thema dramatisch gestiegen, wobei die Forschungsgemeinschaft, die politischen Entscheidungsträger, aber auch der Konsument und damit bestimmte Industriebranchen die Nachfrage nach besseren und vergleichbaren Daten treiben. Der derzeit am häufigsten angewandte instrumentelle Ansatz ist die Mikrospektroskopie auf der Basis von FTIR, Raman und QCL. Diese Methoden haben gemeinsam, dass die Analyse der spektroskopischen Daten auf automatischen Abgleichen mit Spektrenbibliotheken beruht.Während Spektrenbibliotheken leicht auf dem Markt erhältlich sind und in der Regel auch in der Gerätesoftware enthalten sind, ist die Identifizierung von Mikroplastik auf der Grundlage dieses Ansatzes wegen der schlechten Datenqualität und schlechten Vergleichbarkeit immer häufiger kritisiert worden. Aus diesem Grund hat die Forschungsgemeinschaft begonnen, öffentlich zugängliche Spektrenbibliotheken zusammenzustellen und diskutiert derzeit die Parametereinstellungen für den automatischen Abgleich in Spektralbibliotheken, um die Qualität und die Vergleichbarkeit zu verbessern. Betrachtet man den aktuellen Stand der Technik im bereich Data Science und die breite Anwendung des maschinellen Lernens in unserem täglichen Leben, so ist es etwas verwunderlich, dass diese Methodik nur mit wenigen Ausnahmen bisher keine Anwendung für die Analyse von Mikroplastik als Alternative zur Spektralbibliotheken gefunden hat. Dies wirft letzlich die Frage auf, ob es bestimmte strukturelle Aspekte in Mikroplastikdaten gibt, die die Anwendung von maschinellem Lernen erschweren und weiters, wie diese Hindernisse überwunden werden können. Im Rahmen dieser Doktorarbeit wurden die aus μFTIR Imaging stammenden Daten unter dem Gesichtspunkt des unüberwachten und überwachten Lernens untersucht, um Antworten auf diese Fragen zu finden. Dies geschah durch die Entwicklung eines neuartigen graphenbasierten Clustering-Ansatzes sowie verschiedener Random-Forest-basierter Klassifikatoren. Die aus der Entwicklung gewonnenen Erkenntnisse und die Ergebnisse beider Methoden zeigen, dass die Erstellung von annotierten Trainingsdaten für das überwachte Lernen alles andere als trivial ist. Repräsentative Proben, die für die Auswahl von Trainingsdaten benötigt werden, sind schwer zu beschaffen. Außerdem erfordert die Annotation der Trainingsdaten Expertenwissen in den Bereichen Spektroskopie und Chemometrie und ist anfällig für Subjektivität und Flüchtigkeitsfehler. Zu den Errungenschaften dieser Arbeit gehört die Entwicklung eines Random-Forest-Klassifikators, der sowohl in Bezug auf die Datenqualität als auch auf die Durchsatzrate eine hervorragende Leistung zeigt. Während der Aufwand für die die Erstellung dieser Klassifikatoren nicht zu unterschätzen ist, zeigen die Ergebnisse, dass maschinelles Lernen erhebliche Vorteile für die Analyse von Mikroplastik mit sich bringt, wie z.B. eine höhere Geschwindigkeit und Skalierbarkeit, die für eine groß angelegte Überwachung dieses Kontaminanten notwendig ist.
de
Microplastics is an ubiquitous contaminant that has been detected in almost any environmental habitat on earth. However, due to the lack of data the potentially harmful effects on the environment and human health can still not be determined. In the past five years the interest in the topic has risen dramatically, where drivers include the research community, policy makers but also the aware customer and thus also certain industries. The demand for better and comparable data drives the need for harmonization and standardization of existing analytical methods. Currently, the most widely applied instrumental approach is microspectroscopy based on FTIR, Raman or QCL. These methods have in common that the analysis of the spectroscopic data is based on spectral library search.While spectral reference databases for spectral library search can be easily bought on the market and are usually included in the instrument software the identification of microplastics based on this approach has been criticised for poor data quality and incomparability. For this reason, the research community has started to compile publicly available reference databases and is currently discussing parameter settings for spectral library search to improve quality as well as comparability.Looking at the state of the art of data science and the broad use of machine learning in our day-to-day life it is somewhat surprising that only with a few exceptions this methodology has not been applied for microplastics detection and quantification as an alternative to spectral library search. This leads to the question whether there are certain structural aspects of microplastics data which make the application of machine learning difficult and also how these obstacles can be overcome.Within this thesis the data originating from μFTIR imaging measurements has been studied from the viewpoint of unsupervised and supervised learning in order to provide answers to these questions. This was done by developing a novel graph-based clustering approach as well as different random forest based classifiers. The insights gained from the development and the results from both methods show that the creation of annotated training data for supervised learning is far from trivial. Representative samples which are required for sampling training examples are hard to come by. Further, the task of annotating the sampled training data requires expert knowledge in the fields of spectroscopy as well as chemometrics and is therefore prone to subjectivity and labeling errors. Among the achievements of this thesis is the creation of a random forest classifier that shows superior performance, both with respect to data quality and throughput rate. While the effort for creating these classifiers should not be underestimated the results show that machine learning brings significant advantages with respect to the analysis of microplastics, such as increased speed and scalability, which is key to allow for large scale monitoring of this environmental contaminant.