Limbeck, P. (2012). Interactive tracking of markers for facial palsy analysis [Diploma Thesis, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/160579
Das menschliche Gesicht bietet eine reichhaltige Quelle an Information, von Muskelbewegungen und Aktivierung von Nerven, bis hin zu Charakteristiken von Haut und Gesichtsmerkmalen. Diese Information kann zur Diagnose von Behinderungen im Gesicht herangezogen werden. Eine dieser Behinderungen ist die Fazialisparese, die durch Beeinträchtigungen der Aktivierung von Nerven, die für die Muskeln die für Mimik verantwortlich sind, entsteht. Die Hauptsymptome dieser Krankheit äußern sich ausserdem in asymmetrischen Gesichtsbewegungen und partieller Gesichtslähmung. Um den Fortschritt der Krankheit zu messen, und um prä- mit postoperativen Zuständen zu vergleichen, benötigen Mediziner verschiedene klinische Maßzahlen, die aus denjenigen Positionen gewonnen werden, die am meisten zur Mimik beitragen. Kleine, künstliche Markierungen, die vor der Evaluierung am Gesicht des Patienten befestigt werden, geben diese Positionen an.<br />Danach wird ein Video aufgezeichnet, das verwendet wird, um diese Markierungen in jedem Bild zu lokalisieren. Dieser Schritt erfolgt zur Zeit manuell durch einen Arzt oder Betreuer, was dazu führt, dass bis zu fünf Stunden für die Auswertung der Positionen eines einzelnen Videos benötigt werden. Die Objektverfolgung ist ein Forschungsbereich, der sich damit beschäftigt, die Position eines oder mehrerer Objekte innerhalb einer Bildfolge über die Zeit zu Schätzen. Die damit assozierten Methoden werden bereits in verschiedenen Applikationen, die von Videoüberwachung bis zur Robotik reichen, eingesetzt. Bei der Verfolgung von künstlichen Szenarien entstehen traditionelle Probleme die Beleuchtung, Änderungen der Haltung und Verdeckungen betreffen. Doch während sich die Methoden zur Bildverfolgung in den letzten Jahren in diesen Szenarien bewiesen haben, sind viele medizinische Anwendungen noch teilweise unerforscht. Wie viele natürliche Objekte, hat das menschliche Gesicht ein hohes Potential zur Deformation und eine unregelmäßige Textur. Außerdem muss nicht nur ein einzelnes Objekt sondern eine Vielzahl an Objekten bzw. Markierungen gleichzeitig lokalisiert werden, was ein zusätzliches Problem aufwirft, da jede Markierung eindeutig in jedem einzelnen Bild des Patienten verfolgt werden muss. Diese Diplomarbeit hat als Ziel den manuellen Schritt teilweise zu Automatisieren. Verschiedene aktuelle Objektverfolgungsmethoden wurden auf das Problem angewandt. Diese Methoden basieren auf einer sequentiellen Bayes'schen Schätzmethode, dem Partikelfilter, der Hypothesen aufgrund ihrer Übereinstimmung mit einem Zielmodell gewichtet. Das bedeutet, dass die Position von jeder Markierung geschätzt werden kann. In der Diplomarbeit wurde gezeigt, dass die gewählten Methoden den Methoden mit nur einer Hypothese, betreffend der Anzahl an Interaktionen und dem Fehler gegenüber einer manuellen Markierung, überlegen sind. Das bedeutet, dass das System fähig ist, die Laufzeit um ungefähr 2/3 zu reduzieren während die mittlere Abweichung bei 3-4 Pixel liegt. Dabei sind nur ungefähr 2 % an Interaktionen notwendig.<br />
de
The human face provides a rich source of information from muscular movement and nerval actuation to properties of skin and facial characteristics. This information can be exploited to diagnose and quantify facial impairments. Facial palsy is one of these impairments, and is caused by restrictions of the nerval actuation of muscles responsible for facial expressions. The main symptoms of this condition are asymmetrical facial movement and partial facial paralysis. To measure its progress and to compare pre-surgical with post-surgical conditions, medical physicians require different clinical measures extracted from those locations of the face which provide most information about the facial expression. These locations are indicated by small artificial markers which are placed on the patient's face before an evaluation session. A video of the patient is then recorded which is used to localize these markers in every frame. This task is currently performed manually by an operator and can take up to five hours for a single video. Object tracking refers to a research field which deals with the estimation of the position of one or many objects from an image sequence. Its methods have been applied successfully to different applications, ranging from video surveillance to robotics. Traditionally, illumination, changes in pose and occlusion are considered as the main problems when tracking artificial objects of interest. While the associated tracking methods proved themselves able to deal with these problems in recent years, tracking objects from the medical perspective are still partly unexplored. Just like all natural objects, the human face has a high potential for deformation and is characterized by an irregular texture. Additionally, not only one, but multiple objects/markers have to be tracked simultaneously, which imposes additional difficulty by ensuring that markers can be uniquely identified in every frame. The thesis explores the possibility of tracking the artificial facial markers semi-automatically by applying different, state-of-the-art tracking schemes to the presented problem. The tracking schemes are based on a sequential Bayes estimation technique, the so called particle filter, which assesses a set of hypothesis using their congruence with the target model. Hence, the location of each marker can be accurately estimated and occlusions handled efficiently. To improve the accuracy and to reset lost markers, the clinical operator can interact with the tracking system. The results showed that our chosen methods are superior in both the number of interactions and accuracy when compared with traditional trackers which use only a single hypothesis concerning the marker locations.<br />Additionally, it is shown that the evaluated schemes are able to replace the task of manual tracking while preserving a high accuracy. As a result, the time to locate the markers is decreased by around 2/3 with an accuracy of around 3-4 pixels towards the available ground truth.<br />Additionally, only around 2 % of the evaluated frames required operator intervention.