Ruzicka, L. (2022). Spatio-temporal pattern matching for 3D data with an application for automate diagnosis of iRBD [Diploma Thesis, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/79042
Die isolierte REM-Schlaf-Verhaltensstörung (iRBD) ist durch abnormes, motorisches Verhalten und der Abwesenheit von Muskelatonie, während des REM-Schlafs geprägt. Ihre Diagnose ist von großer Bedeutung, weil diese Schlafstörung als Frühphase einer α-Synucleinopathie (beinhaltet unter anderem die Parkinson-Krankheit (PD), Parkinson-Krankheit mit Demenz, Lewy-Körperchen Demenz und Multiple Systematrophie) angesehen werden kann. Für die Diagnose müssen Patienten ein auf die Diagnose spezialisiertes Schlaflabor aufsuchen, wobei Termine oft erst mit monatelangen Wartezeiten verfügbar sind. Die langen Wartezeiten gehen mit dem hohen zeitlichen Aufwand der Analyse einher, weil mindestens eine Nacht an aufgezeichnetem Video-Polysomnographie-Datenmaterial von medizinischen Experten manuell gesichtet werden muss.Im Rahmen dieser Diplomarbeit werden Werkzeuge und Prozesse vorgestellt, welche, basierend auf 3D Daten, in der Lage sind eine wahrscheinliche Diagnose von iRBD zu erstellen. Diese bauen auf Methoden aus dem Teilgebiet des Deep Learnings auf. Weiters wird ein neuer Weg Schlafaufzeichnungen dazustellen und zu kodieren entwickelt. Die existierende Umgebung von Gall u. a. [1], welche Bewegungen eines Patients in einer vordefinierten, unbeweglichen Region erkennen kann, wurde erweitert um dynamische Regionen zu unterstützen, welche der Patientenbewegung folgen. Dies wird durch den Einsatz von tiefen, neuronalen Netzen möglich, welche für die Detektion von Kopf- und Handpositionen verwendet wurden. Diese neuronalen Netze nutzen die Methode des Transfer-Lernens, um auf Basis von bestehenden, frei zugänglichen und auf ModelZoo [2] veröffentlichten Modellen, speziell an das Problem angepasste neuronale Netze zu trainieren. Das Anpassen der Modelle an die Aufgabe der Kopf- und Handerkennung wurde mithilfe der Google Object Detection API [3] durchgeführt. Erklärungen, sowie der empirische Vergleich mehrerer Modellfamilien werden präsentiert. Ausgehend von der Erkenntnis, dass das Modell D0 aus der Familie der EfficientDet's [4] am besten abgeschnitten hat, wurde dieses Modell in den weiteren Schritten verwendet. Als nächsten Schritt wurde eine schwellwertbasierte Analyse auf die Daten angewandt. Diese erreichte eine Genauigkeit von über 87% (Sensitivität ≈ 86%, Spezifität ≈ 84%) und verbesserte damit bestehende Werte, basierend auf dem Einsatz zweier Metriken: Rate und Ratio. Diese zwei Metriken nutzen Hypnogram-Informationen in der Form von Schlafphasenzuordnungen, um nur Bewegungen während der REM-Schlafphase zu verwenden.Die neue, dynamische Bewegungserkennung wurde auch für den nächsten Schritt, einer neuen Kodierungsmethode mit dem Namen TeaSpam-Encoding, genutzt. Bewegungen werden zu einer der Sprache ähnlichen Struktur verarbeitet. Diese enthält Silben, Wörter und Sätze. Eine statistische Analyse, welche die Unterschiede der Verteilungen von Patienten mit und ohne iRBD bezüglichen mehrerer Eigenschaften der TeaSpam-Encoded Daten untersucht, wurde durchgeführt. Es wird gezeigt, dass die durchschnittliche Wortlänge von Wörtern, die mindestens ein Ereignis, das den Oberkörper (p Wert = 0.0040) oder den Unterkörper (p Wert = 0.0099) betrifft, beinhalten, in der Verteilung von Patienten mit oder ohne iRBD unterschiedlich waren. Basierend auf den statistischen Ergebnissen wurden vier maschinell-lernende Modelle, welche mit TeaSpam-Encoded Daten als Eingabe arbeiten, implementiert und verglichen. Diese vier Modelle sind ein mehrschichtiges Perzeptron, langes Kurzzeitgedächtnismodell, langes Kurzzeitgedächtnismodell mit Konvolutionen und ein Transformer-Modell. Diese nutzen keine vom Menschen annotierte Datenquellen. Das bedeutet, dass keine Bewegungsdaten aus dem PSG und keine Schlafphaseninformationen aus dem Hypnogram, sondern nur Daten des 3D Sensors genutzt werden. Die besten Ergebnisse wurden vom langen Kurzzeitgedächtnismodell erreicht, welches eine Genauigkeit zwischen 70% und 80% (Sensitivität ≈ 0.50 - 0.66, Spezifität ≈ 0.75 - 1.0) erreichte. Diese Ergebnisse erlauben es, eine vollautomatische Abfolge von Berechnungen zu erstellen, welche in der Lage ist eine wahrscheinliche Diagnose bezüglich iRBD zu stellen.
de
Isolated rapid eye movement (REM) sleep behavior disorder (iRBD) is a disorder connected with abnormal motor behavior and the absence of muscle atonia during REM sleep. It is associated with early stage α-synucleinopathy (i.e. Parkinson disease (PD), PD dementia, dementia with Lewy bodies and multiple system atrophy). For this reason, the diagnosis of iRBD is of high importance. In order to get a diagnosis, patients need to seek out a specialized sleep laboratory, receiving appointments several months into the futures. Waiting times are long, because the diagnostic process requires experts to visually inspect video polysomnography of at least one night of recorded sleep.In this thesis, a suite of 3D data analysis tools is presented that, combined with deep learning models and a novel way of representing a patients night called Language Encoding, can automate the process of creating a probable diagnosis of iRBD for a patient. First, the existing framework of Gall e. a. [1], which is able to recognize a patients movement in predefined, static regions, is extended to dynamic regions. This is done using deep neural networks for the detection of a patients head and hand positions. The neural networks are trained using transfer learning with models taken from ModelZoo [2]. Fine tuning on the target task of head and hand detection is done using Googles Object Detection API [3]. Explanations and empirical comparison of different model families is presented, resulting in the use of EffiecientDet D0 [4] for object detection. As a next step, a threshold based analysis is applied to the data, resulting in an accuracy of over 87% (sensitivity ≈ 86%, specificity ≈ 84%), improving existing scores for separating iRBD from non-iRBD patients using the two metrics rate and ratio. The two metrics use hypnogram information in the form of annotated sleep phases to only consider movements during REM sleep. The results highlight the improvements made by extending the movement detection framework to dynamic regions. Using these results for the next step, a novel encoding scheme called TeaSpam-Encoding is created. Movement events are connected with a language like structure, consisting of syllables, words and sentences. Statistical analysis is performed, investigating how the distributions of iRBD versus non-iRBD patients differ in regard to multiple features created from TeaSpam-Encoded data. It is shown that the average word length of words that contain at least one body event (p value = 0.0040) or at least one lower body event (p value = 0.0099) separates iRBD versus non-iRBD distributions. Based on the statistical results, four machine learning models working with TeaSpam-Encoded input data are implemented and compared. Those are a Multilayer Perceptron, Long Short Term Memory (LSTM), Convolutional Long Short Term Memory and a Transformer model. No polysomnography, hypnogram or other manually annotated data is used by those models. Best performances can be observed by the LSTM model, with an accuracy of between 70% to 75% (sensitivity ≈ 0.50 - 0.66, specificity ≈ 0.75 - 1.0). These results allow for the creation of a fully automate pipeline capable of detecting probable iRBD.
en
Additional information:
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers