<div class="csl-bib-body">
<div class="csl-entry">Seidl, M. (2024). <i>Enhancing image retrieval re-ranking using mutual information minimization</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.124402</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2024.124402
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/205277
-
dc.description.abstract
Content-Based Image Retrieval zielt darauf ab, relevante Bilder in einer Datenbank anhand des visuellen Inhaltes eines Anfragebildes zu finden. Ein häufig verwendeter Ansatz ist es, zwei Arten von erlernten Bildrepräsentationen zu verwenden. Globale Repräsentationen erfassen die Semantik auf einer komplexen Ebene, während lokale Repräsentationen die Semantik auf einer einfachen Ebene erfassen. Re-ranking wird benutzt um den Suchraum einzuschränken. Zuerst werden Bilder anhand der globalen Repräsentation vorgefiltert und dann mittels Geometric Verification der lokaler Repräsentationen umgereiht. Geometric Verification funktioniert anhand der räumlichen Position der lokalen Repräsentationen, lässt aber die Ähnlichkeit anhand globaler Repräsentationen außer Acht. Bei aktuellen Methoden kommt es zu einer beträchtlichen Menge an Redundanz zwischen globalen und lokalen Repräsentationen. Die Dimensionalität der Repräsentationen im latenten Raum ist begrenzt, weshalb diese Redundanz die Ausdruckskraft der Repräsentationen beeinträchtigt. Eine Verringerung der Redundanz sollte daher die Effizienz des Re-Rankings verbessern. In dieser Arbeit wird vorgeschlagen, informationstheoretische Konzepte und Multi-View Representation Learning zu nutzen, um die Redundanz zwischen globalen und lokalen Repräsentationen zu verringern. Zunächst untersuchen wir den Effekt von Transinformation zwischen Repräsentationen auf Image Retrieval Systeme. Um Redundanz zu “bestrafen”, fügen wir die Schätzung von Transinformation als kontrollierbaren Faktor zum Optimierungsziel des Netzwerkes hinzu. Das Modell ist durchgängig mittels image-level supervision trainierbar. Wir evaluieren unsere Methodik anhand zweier Ansätze der Schätzung von Transinformation und des Re-Rankings. Wir führen Experimente auf dem Revisited Oxford and Paris sowie dem Stanford Online Products Datensatz durch. Unsere Ergebnisse zeigen, dass die Reduktion von Redundanz durch Schätzung von Transinformation das Re-Ranking deutlich verbessern kann.
de
dc.description.abstract
Content-Based Image Retrieval aims to find relevant images in a database given the visual content of a query image. A common setup is using learned feature extractors to obtain two types of image descriptors. Global features capture high-level semantics, while local features encode low-level details. Re-ranking is used to reduce the search space. First, images are matched using global feature similarity and then re-ranked using geometric verification of local features. Geometric verification works based on the spatial location of local features but ignores global feature similarity. However, current methods leave considerable redundancy between global and local features. Since latent dimensions are finite, the redundancy inhibits expressiveness. Therefore, reducing redundancy should improve re-ranking performance. This work proposes drawing from information-theoretic concepts and multi-view representation learning to minimize redundancy between global and local features. We first investigate the degree and effect of mutual information between representations in image retrieval systems. Then, we apply (neural) mutual information estimation as a controllable term that penalizes redundancy during training. The model is end-to-end trainable using image-level supervision. We evaluate our methodology using two approaches to mutual information estimation and re-ranking. We perform experiments on the Revisited Oxford and Paris datasets and the Stanford Online Products dataset. Our results demonstrate that reducing redundancy with (neural) information estimation can significantly improve re-ranking.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Image Retrieval
en
dc.subject
Representation Learning
en
dc.subject
Multi-View Representation Learning
en
dc.subject
Mutual Information
en
dc.subject
Neural Mutual Information Estimation
en
dc.subject
Rényi Entropy
en
dc.subject
Re-Ranking
en
dc.subject
Global Features
en
dc.subject
Local Features
en
dc.subject
Geometric Verification
en
dc.title
Enhancing image retrieval re-ranking using mutual information minimization
en
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2024.124402
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Marvin Seidl
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
dc.contributor.assistant
Furutanpey, Alireza
-
tuw.publication.orgunit
E194 - Institut für Information Systems Engineering
-
dc.type.qualificationlevel
Diploma
-
dc.identifier.libraryid
AC17385356
-
dc.description.numberOfPages
84
-
dc.thesistype
Diplomarbeit
de
dc.thesistype
Diploma Thesis
en
dc.rights.identifier
In Copyright
en
dc.rights.identifier
Urheberrechtsschutz
de
tuw.advisor.staffStatus
staff
-
tuw.assistant.staffStatus
staff
-
tuw.advisor.orcid
0000-0001-6872-8821
-
tuw.assistant.orcid
0000-0001-5621-7899
-
item.languageiso639-1
en
-
item.openairetype
master thesis
-
item.grantfulltext
open
-
item.fulltext
with Fulltext
-
item.cerifentitytype
Publications
-
item.openairecristype
http://purl.org/coar/resource_type/c_bdcc
-
item.openaccessfulltext
Open Access
-
crisitem.author.dept
E194 - Institut für Information Systems Engineering