Seidl, M. (2024). Enhancing Image Retrieval Re-Ranking using Mutual Information Minimization [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.124402
E194 - Institut für Information Systems Engineering
-
Date (published):
2024
-
Number of Pages:
84
-
Keywords:
Image Retrieval; Representation Learning; Multi-View Representation Learning; Mutual Information; Neural Mutual Information Estimation; Rényi Entropy; Re-Ranking; Global Features; Local Features; Geometric Verification
en
Abstract:
Content-Based Image Retrieval zielt darauf ab, relevante Bilder in einer Datenbank anhand des visuellen Inhaltes eines Anfragebildes zu finden. Ein häufig verwendeter Ansatz ist es, zwei Arten von erlernten Bildrepräsentationen zu verwenden. Globale Repräsentationen erfassen die Semantik auf einer komplexen Ebene, während lokale Repräsentationen die Semantik auf einer einfachen Ebene erfassen. Re-ranking wird benutzt um den Suchraum einzuschränken. Zuerst werden Bilder anhand der globalen Repräsentation vorgefiltert und dann mittels Geometric Verification der lokaler Repräsentationen umgereiht. Geometric Verification funktioniert anhand der räumlichen Position der lokalen Repräsentationen, lässt aber die Ähnlichkeit anhand globaler Repräsentationen außer Acht. Bei aktuellen Methoden kommt es zu einer beträchtlichen Menge an Redundanz zwischen globalen und lokalen Repräsentationen. Die Dimensionalität der Repräsentationen im latenten Raum ist begrenzt, weshalb diese Redundanz die Ausdruckskraft der Repräsentationen beeinträchtigt. Eine Verringerung der Redundanz sollte daher die Effizienz des Re-Rankings verbessern. In dieser Arbeit wird vorgeschlagen, informationstheoretische Konzepte und Multi-View Representation Learning zu nutzen, um die Redundanz zwischen globalen und lokalen Repräsentationen zu verringern. Zunächst untersuchen wir den Effekt von Transinformation zwischen Repräsentationen auf Image Retrieval Systeme. Um Redundanz zu “bestrafen”, fügen wir die Schätzung von Transinformation als kontrollierbaren Faktor zum Optimierungsziel des Netzwerkes hinzu. Das Modell ist durchgängig mittels image-level supervision trainierbar. Wir evaluieren unsere Methodik anhand zweier Ansätze der Schätzung von Transinformation und des Re-Rankings. Wir führen Experimente auf dem Revisited Oxford and Paris sowie dem Stanford Online Products Datensatz durch. Unsere Ergebnisse zeigen, dass die Reduktion von Redundanz durch Schätzung von Transinformation das Re-Ranking deutlich verbessern kann.
de
Content-Based Image Retrieval aims to find relevant images in a database given the visual content of a query image. A common setup is using learned feature extractors to obtain two types of image descriptors. Global features capture high-level semantics, while local features encode low-level details. Re-ranking is used to reduce the search space. First, images are matched using global feature similarity and then re-ranked using geometric verification of local features. Geometric verification works based on the spatial location of local features but ignores global feature similarity. However, current methods leave considerable redundancy between global and local features. Since latent dimensions are finite, the redundancy inhibits expressiveness. Therefore, reducing redundancy should improve re-ranking performance. This work proposes drawing from information-theoretic concepts and multi-view representation learning to minimize redundancy between global and local features. We first investigate the degree and effect of mutual information between representations in image retrieval systems. Then, we apply (neural) mutual information estimation as a controllable term that penalizes redundancy during training. The model is end-to-end trainable using image-level supervision. We evaluate our methodology using two approaches to mutual information estimation and re-ranking. We perform experiments on the Revisited Oxford and Paris datasets and the Stanford Online Products dataset. Our results demonstrate that reducing redundancy with (neural) information estimation can significantly improve re-ranking.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers