Bashir, S. (2011). Evaluating retrieval models using retrievability measurement [Dissertation, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/160520
E188 - Institut für Softwaretechnik und Interaktive Systeme
-
Date (published):
2011
-
Number of Pages:
144
-
Keywords:
Information Retrieval; Abrufbarkeit; Patent Retrieval
de
Information Retrieval; Retrievability; Patent Retrieval
en
Abstract:
Die treibende Kraft in der Forschung, Entwicklung und Anwendung der Informationsfindung (Information Retrieval, IR) ist die Evaluierung.<br />Im traditionellen Paradigma der IR ist eine Liste von Fragethemen gemeinsam mit einer Abschätzung der jeweiligen Relevanz gegeben. Ziel der Evaluierung ist es zu analysieren, wie gut ein gegebenes Retrieval-Modell in der Lage ist, die relevanten Dokumente an den höchstgereihten Positionen zurückzuliefern. Die primäre Limitierung dieser Art von Evaluierung liegt darin, dass der Fokus fast ausschließlich auf einem Set einiger weniger Dokumente liegt und den Einfluss des gegebenen Retrieval-Modelles auf den Zugriff der Gesamtheit der Information einer Sammlung außer Acht lässt. Das ist vor allem von Bedeutung in Anwendungen, bei denen das Wiederauffinden aller relevanten Informationselemente von großer Bedeutung ist. Diese Arbeit analsiert die Effektivität von Retrieval-Modellen aus der Perspektive der Wiederauffindbarkeit von Dokumenten. Wir konzentrieren uns im Perspektive der Auffindbarkeit (Retrievability) von Dokumenten.<br />Speziellen auf die systematischen Fehler bestimmter Retrieval-Modelle und systematischen Bias bestimmter versuchen zu untersuchen, in welchem Ausmaß diese Verzerrungen die Benutzer beim Auffinden von Information einschränken. Wir erforschen dies mit der Hilfe dreier Faktoren. Erstens analysieren wir den Zusammenhang zwischen bestimmten Charakteristiken von Abfragen und Auffindbarkeit. Das ist wichtig von Abfragen und dem resultierenden Retrievability-Bias. aus der Perspektive des Generierens von Abfragen, da es im Falle erschöpfender Abfragen (dem Universum aller möglichen Abfragen) praktisch unmöglich ist, die vollständige Auffindbarkeit von Dokumenten in sinnvoller Zeit zu erfüllen Zeit zu ermitteln. Die starke Korrelation zwischen Auffindbarkeit und Abfragecharakteristiken ermöglicht uns eine exakte Annäherung der Auffindbarkeit mit der Hilfe von uns eine weitestgehend präzise Annäherung Abfrage-Subsets, ohne eine erschöpfende Abarbeitung von Abfragen vornehmmen zu müssen. Anschließend untersuchen wir, in welchem Ausmaß die Auffindbarkeit und andere IR Effektivitäts-Indikatoren zueinander in Zusammenhang stehen. Dies hilft uns im Speziellen dabei, zu verstehen, in welchem Ausmaß es möglich ist, die Effektivität von Retrieval-Modellen auf der Basis ihrer systematischen Fehler automatisch zu reihen. Weiters bietet dies eine Basis für die Optimierung von Retrieval-Systemen für spezifische Domänen ohne manuell annotierte Relevanzbeurteilungen zur Verfügung haben zu müssen. Dies wiederum ist besonders nützlich in jenen Domänen, in denen es schwierig ist, eine ausreichende Menge von Relevanzbeurteilungen zu erhalten. Schließlich untersuchen und entwickeln wir verschiedene Retrieval-Strategien zur Abschwächung des Effektes der niedrigen Auffindbarkeit von Dokumenten.<br />Das beinhaltet die Aufteilung von Dokumentsammlungen auf der Basis von Auffindbarkeitsgraden und Abfrageerweiterung auf Basis eines verbesserten Pseudo-Relevance-Feedbacks. Die hier präsentierte Arbeit bietet einen interessanten Anfangspunkt für die Evaluierung von bietet einen neuen Ansatz für die Evaluierung und Optimierung von Retrieval-Modellen im Besonderen in Domänen, bei der die vollständige Auffindbarkeit im Vordergrund steht, d.h. in Domänen, bei denen nicht nur ein Subset relevanter Information gefunden werden soll, sondern jegliche Information, die Relevanz besitzt.
de
Evaluation is the main driving force in research, development and applications related to information retrieval (IR). In the traditional IR evaluation paradigm a list of query topics along with their relevance judgments are given. The goal of the evaluation is to analyze how effective a given retrieval model is in retrieving these judged relevant documents at the top rank positions. The main limitation of this kind of evaluation paradigm is that it focuses almost exclusively on a small set of judged documents and does not consider what influence the given retrieval models have on accessing all the relevant information in the collection. This is particularly important for recall oriented retrieval applications where we want to ensure that that everything relevant has been found. In this thesis we analyze the effectiveness of retrieval models from the documents' retrievability point of view. We focus particularly on the retrieval bias of different retrieval models, and try to examine to what extent this bias restricts the users in retrieving relevant information.<br />We explore this research with the help of three factors. First, we analyze the relationship between different characteristics of queries and retrievability. This is important from the query generation point of view, since in case of exhaustive queries (the universe of all possible queries), it is practically infeasible to complete retrievability approximation in reasonable time. The strong correlation between retrievability and query characteristics allows us to approximate the retrievability score accurately with the help of a query subset without processing an exhaustive number of queries. After this, we examine to what extent the retrievability and other IR effectiveness measures are related to each other. This specifically helps us to understand to what extent it is possible to automatically rank the effectiveness of retrieval models on the basis of their retrieval bias. This also offers a basis for optimizing retrieval systems for specific collections without the need to provide manually annotated ground truth. This is particularly useful for those retrieval domains where it is difficult to obtain a sufficient amount of relevance judgments. At the end we investigate and devise different retrieval strategies for mitigating the effect of low retrievability of documents. These include collection partitioning on the basis of document retrievability scores, and query expansion on the basis of improved pseudo relevance feedback selection. The work present in this thesis provides an a novel approach for the evaluation and optimization of retrieval models particularly for recall oriented retrieval domains, where the focus is on retrieving all relevant information but not just retrieving a subset of relevant information.