E376 - Institut für Automatisierungs- und Regelungstechnik
-
Date (published):
2024
-
Number of Pages:
84
-
Keywords:
Computer Vision; Surgery
en
Abstract:
Menschen erfassen den Kontext und die Handlungen in Videos intuitiv und schnell. Die Entwicklung intelligenter, automatisierter Systeme, die in der Lage sind, die zeitaufwändige manuelle Videoanalyse in Bereichen wie dem Gesundheitswesen oder der Überwachung zu ersetzen, bleibt jedoch eine große Herausforderung im Bereich der Computer Vision.Aktuelle Algorithmen im Bereich der automatisierten Videoanalyse zielen darauf ab, alle Aktionen im Video zu lokalisieren und zu klassifizieren. In den meisten Fällen benötigendiese Algorithmen jedoch große Datensätze, um ihre Netzwerke zu trainieren, oder sie scheitern an der Komplexität von Mehrpersonenumgebungen. In hochkomplexen Umgebungen wie dem Operationssaal (OP), wo öffentlich zugängliche Datensätze aufgrund ihres sensiblen Inhalts praktisch nicht existieren, besteht daher eine erhebliche Forschungslücke im Bereich der automatisierten Aktionserkennung und Videozusammenfassung.Diese Masterarbeit schließt diese Lücke durch zwei wesentliche Beiträge: Erstens zeigt das entwickelte UnSTABL-Framework, dass es möglich ist, signifikante Aktionsübergänge in komplexen Ein- und Mehrpersonenumgebungen auf der Basis von personenspezifischen Aktionsinformationen zu identifizieren, ohne dass Trainingsdaten zur Verfügung stehen.In einem zweiten Schritt wird das Basis-Framework speziell für die anspruchsvolle OP Umgebung weiterentwickelt. Das "kollisionsrobuste" Framework ist in der Lage, kurze Überlappungen von Personen bei der Aktionserkennung zu berücksichtigen. Darüber hinaus verbessert es die Genauigkeit eines State-of-the-Art-Personentrackers, indem es ID-Verwechslungen anhand der extrahierten Aktionsinformationen erkennt und korrigiert.Zur Bewertung des Frameworks wird ein zweistufiger Evaluierungsprozess durchgeführt.Zunächst wird das UnSTABL-Framework anhand von zwei Benchmark-Datensätzen mit bestehenden State-of-the-Art-Methoden verglichen. Dabei können wir zeigen, dass unser Framework in der Lage ist, Handlungsgrenzen in Ein-Personen-Umgebungen mit dergleichen State-of-the-Art-Genauigkeit zu erkennen. Die identifizierten "Ground-Truth"-Aktionen umfassen Längen von wenigen Sekunden bis fast zu einer Minute, was eine sehr hohe Flexibilität hinsichtlich der erkennbaren Aktionslängen zeigt.Im zweiten Schritt erfolgt eine qualitative Evaluierung beider Systeme im komplexen OP-Umfeld, um die Benchmark-Ergebnisse in Mehrpersonen-Szenarien zu validieren,aber auch um die Grenzen unseres Ansatzes aufzuzeigen. Gleichzeitig evaluieren wir die Verbesserungen im Personentracking durch das "ID-Swap-Erkennungsmodul". In Szenen mit gelegentlichen Überlappungen erzielt unser Framework ähnlich gute Ergebnisse wie in beiden Benchmarks. Bei Videos mit längeren oder permanenten Personenüberlappungen- wie etwa bei der Zusammenarbeit zweier Personen oder bei Arbeiten an einem dicht befüllten OP-Tisch - ist unser Framework jedoch nicht in der Lage, die Aktionsgrenzen aufgrund dieser Überlappungen zuverlässig zu erkennen. Trotz dieser Einschränkungen ist das "ID-Swap Detection Module" in der Lage, ca. 50% der falschen ID-Swaps des State-of-the-Art "Person Tracker" zu korrigieren und damit die Genauigkeit in diesem anspruchsvollen Umfeld deutlich zu verbessern.
de
Understanding the actions and context within a video comes naturally to human observers.However, replicating this ability through artificial intelligence to automate the time consuming manual video analysis in areas like security and healthcare remains a challenging task in computer vision. While most existing video understanding algorithms try to localize and classify all actions within a video, they often depend on heavily annotated datasets orcan not deal with the complexities found in multi-person environments. Consequently, in many real-world environments like the operating room (OR), featuring multiple individuals performing concurrent actions and experiencing frequent occlusions - and where publicdatasets are scarce due to the sensitive nature of the video content - a significant gap remains in automatic action detection and video summary generation.This thesis addresses these gaps with two key contributions. First, it presents the Unsupervised Spatio-Temporal Action Boundary Localization (UnSTABL) framework,which leverages person-specific action information to localize significant action boundaries in an unsupervised manner. By focusing on each individual independently, the framework is able to effectively handle multi-person environments. Secondly, it improves the base framework specifically for the challenging OR environment. This "collision-robust" framework successfully handles brief person overlaps during boundary detection. It additionallyimproves the accuracy of a state-of-the-art person tracker by detecting and correcting ID swaps using the previously extracted action information.To evaluate the performance of our proposed contributions, we conduct a two-step validation process. Using two datasets, the UnSTABL framework is initially benchmarked against existing unsupervised action boundary detection methods. This benchmark establishes a performance baseline in single-person environments, revealing that our frameworkis able to identify action boundaries with state-of-the-art accuracy. It successfully detects ground-truth action segments of various durations, ranging from several seconds up to almost a minute, showing a high flexibility in action length.In the second part of the evaluation, we perform a qualitative assessment of the framework’s performance in the complex OR setting to verify the benchmark results in multi-person environments. We assess the accuracy of the detected action boundaries, the improvements in person tracking, and identify the limitations of our proposed framework.While our person-specific approach proved effective in moderately crowded scenes, delivering similar results as in both benchmarks, densely crowded and collaborative tasks reveal certain limitations. Due to continuous, long person overlaps, neither framework reliably detects action boundaries in these scenarios.Despite these limitations, the framework demonstrates strong results in moderatelycrowded scenes, making unsupervised action boundary detection feasible in multi-person environments without sacrificing accuracy. Additionally, the proposed ID Swap Correction Module is able to correct about 50% of the tracker’s incorrect ID Swaps, successfully improving the tracking accuracy in this challenging setting.
en
Additional information:
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers