Zafirova, D. (2020). Shot boundary detection: a fundamental base for automatic video analysis [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2020.73823
Shot Boundary Detection; Convolutional Neural Networks; Deep Learning; Historical footage
en
Abstract:
Die Shot Boundary Detection (SBD) ist ein grundlegender Vorverarbeitungsschritt bei der automatisierten Indizierung und inhaltsbasierten Videoabfrage. Verwandte Forschung konzentriert sich auf die Erkennung abrupter Übergänge (AT) und allmählicher Übergänge (GT) in Videodatensätzen vielseitiger Domänen und Videogattungen wie Filmen und Nachrichtenclips. Nur eine Minderheit der SBD-Forschungsstudien widmet sich jedoch dem historischen Filmmaterial. Diese Masterarbeit zielt darauf ab, das Problem der SBD anzugehen und eine Methode für deren Automatisierung zu entwickeln. Insbesondere liegt der Schwerpunkt dieser Arbeit auf der Erkennung von ATs und GTs in Videos aus dem historischen Bereich. Das Framework enthält ein hochmodernes Modell für tiefe neuronale Netze, das auf einem bestimmten Eingangsvideo die genauen Bildpositionen der entsprechenden Aufnahmegrenzen ausgibt. Das Modell folgt einem dreistufigen Ansatz, der aus Merkmalsextraktion, Entfernungsberechnung und Übergangsklassifizierung (bzw. Nicht-Übergangsklassifizierung) besteht. Der Ansatz wird anhand von zwei Datensätzen aus dem historischen Bereich, EFilms und IMC, bewertet, die 66 bzw. 78 historische Filme enthalten. Darüber hinaus wird der Ansatz an zwei Benchmark-Datensätzen, ClipShots und RAI, evaluiert und seine Leistung mit den modernsten Methoden für SBD verglichen. Die Leistung wird in Form von Genauigkeits-, Rückruf- und F1-Score-Werten für die ausgewählten Datensätze sowie der durch den Ansatz erzielten Inferenzgeschwindigkeit (FPS) ausgedrückt. Letztendlich tragen diese Arbeit und ihre Ergebnisse wesentlich zum Ziel der Entwicklung einer intelligenten Videosuchmaschine für historische Daten bei.
de
ResidualATNet. Experiments which examine the effects of the training data, feature extraction strategies and CNN architectural properties are carried out to improve the SBD performance on historical data. The evaluation is performed on two historical datasets called EFilms and IMC which contain 66 and 78 films respectively. The framework achieves an F1-score of 85% on the EFilms and an F1-score of 91% on the IMC dataset. Experiments on the publicly available datasets RAI, ClipShots and BBC Planet Earth confirm that the framework produces a competitive SBD performance on contemporary film material. With an F1-score of 96% on the RAI dataset and an F1-score of 90% on the BBC Planet Earth dataset, the framework shows outstanding detection abilities which are not limited to historical film material. Ultimately, this thesis and its results significantly contribute to the goal of developing a smart CBVIR application for historical films.
en
Additional information:
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers