Pointner, M. (2020). Human-centric best image selection on photo series [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2020.66802
automatic image selection; image preference; face comparison
en
Abstract:
Immer wenn mehrere Bilder einer Szene oder eines Moments aufgenommen werden, kann ein notwendiger manueller Nachbearbeitungsschritt darin bestehen, das „beste Bild“ aus jeder dieser Serien nahezu redundanter Bilder auszuwählen, um sie Verwandten/Freunden zu zeigen oder in sozialen Medien zu veröffentlichen. Darüber hinaus hat die Größe der aufgenommenen persönlichen Fotosammlungen aufgrund der Allgegenwart von Digitalkameras zugenommen. Infolgedessen ist das Erstellen einer Zusammenfassung der Fotosammlung durch das Auswählen des „besten“ Bildes jeder einzelnen Serie, aufgrund der großen Anzahl von Fotos, eine zeitaufwändige und eintönige Aufgabe. Es wurden umfangreiche Untersuchungen zur Automatisierung dieser Aufgabe durchgeführt, jedoch aufgrund der Subjektivität, Kontextabhängigkeit und Zielabhängigkeit dieser Aufgabe wurde noch kein allgemein anwendbarer Algorithmus/Neuronales Netzwerk gefunden. Frühere Arbeiten haben ergeben, dass Personen bei der Bewertung von Fotos verschiedener Szenenkategorien sehr unterschiedliche Merkmale betrachten, z. B. bei Fotos, die Personen enthalten, deren Erscheinungsbild die Bewertungsergebnisse stark dominiert. Um dieser Erkenntnis nachzugehen, eruiert diese Arbeit die Verwendbarkeit menschlicher Gesichter zur Vorhersage der menschlichen Präferenz für Paare ähnlicher Bilder, die im selben Moment der Szene aufgenommen wurden, und vergleicht sie mit einer Methode, bei dem die menschliche Präferenz auf Grundlage der ganzen Bilder prognostiziert wird. Durch Extrahieren von Gesichtern und Bewerten der Paarpräferenz zwischen Gesichtern erreicht der in dieser Arbeit verwendete Ansatz nur Anhand der Gesichter eine ähnliche Vorhersagegenauigkeit für Bilder mit Menschen wie die Vergleichsmethode. In Kombination mit der Vergleichsmethode kann die Vorhersagegenauigkeit sogar erhöht werden. Dies bestätigt die hohe Bedeutung menschlicher Gesichter für die Vorhersage von Bildpräferenzen, da Gesichtsmerkmerkmale allein eine Vorhersage-Trefferquote am Stand der Wissenschaft erzielen konnten.
de
Whenever multiple images of a scene or moment are taken, a necessary manual postprocessing step might be to select the "best image" out of each of those series of nearly redundant images to show to relatives/friends or post on social media. Furthermore, the sizes of personal photo collections have increased due to the ubiquity of digital cameras. As a consequence, summarizing a collection through selection of the "keepers" of each series is a time-consuming and monotonous task due to the enormous amount of images. There has been heavy research on how to automate this task. However, no generally applicable solution has been found due to the subjectiveness, context-dependency, and objective-dependency of image selection. Previous work has concluded that people look at a very different set of features if evaluating photos of different scene categories. For example, if photos that contain people, their appearance dominates the evaluation results. In order to address this finding, this thesis evaluates the usability of human faces for predicting human preference on pairs of similar images taken of the same moment of scene and compares it to the baseline approach, which evaluates whole images. By extracting faces and just evaluating pair-preference between faces, which are a subset of the features used by the baseline, the approach used in this thesis achieves a similar test set performance on images containing humans as the baseline approach. By combination with the baseline, the performance could even be improved. This confirms the high importance of human faces in predicting image preferences on images containing humans as face features alone achieved state-of-the-art performance.