Weigl, E. (2011). Mitigating the bias of retrieval systems by corpus splitting : an evaluation in the patent retrieval domain [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-41406
retrievability; corpus split; retrieval system bias; patent retrieval; recall oriented; prior art search; result set merging; patents; information retrieval
en
Abstract:
Üblicherweise suchen Information Retrieval Systeme eine kleine Anzahl an Dokumenten, die möglichst genau der Suche entsprechen. Die Patentdomäne hingegen ist auf hohen Recall angewiesen und darf kein einziges relevantes Dokument im Prozess der Patentanmeldung übersehen, da die Folge teure Gerichtsverfahren sein können wenn die Bewilligung für ein Patent später ungültig wird. Es hat sich jedoch herausgestellt, dass einige Dokumente von Retrievalsystemen, die eine Präferenz zu bestimmten Dokumenten aufweisen, gar nicht gefunden werden können. Das Ziel dieser Arbeit ist daher, die Herangehensweise einer anderen Publikation, die sich mit der Auffindbarkeit (retrievability) von Dokumenten beschäftigt, weiterzuentwickeln. Die Basis dafür ist das Teilen eines einzigen Dokumentenkorpus in zwei Korpora, wobei einer davon ausschließlich gut auffindbare, der andere hingegen ausschließlich schlecht auffindbare Dokumente enthält. Dazu muss zunächst sowohl der Versuchsaufbau als auch die Korpusteilung neu gemacht werden. Danach werden verschiedene Kombinierungsstrategien, die die Resultate der schlecht und gut auffindbaren Korpora verbinden, unter der Annahme getestet, dass die vormals schlecht auffindbaren Dokumente nun einen besseren Rang erhalten und dadurch den Recall verbessern. Dieses wird mit mehreren Retrievalmodellen dreier Retrievalsysteme (Terrier, Lemur, Solr) getestet. Das Ergebnis zeigt, dass sich die meisten Retrievalmodelle nicht gut für diese Kombinierung eigenen, vor allem bezogen auf MAP und Recall Werte. Nur die Precision auf hohen Rängen verbessert sich bei fast allen Retrievalmodellen. Einige der Modelle allerdings liefern bessere Ergebnisse als andere, weshalb die Eigenschaften, die sie geeigneter dafür machen, aufgezeigt und diskutiert werden.<br />
de
Typical information retrieval systems retrieve a low number of documents that are preferably close to the query. In contrast to that stands the patent domain as a recall oriented field where missing one single document in the patentability process can lead to costly law suits afterwards if a granted patent is invalidated. However, research showed that retrieval engines cannot find certain documents because they show a bias towards other document characteristics. Thus the goal of this work is to look further into one approach that deals with retrievability of documents and splits a single corpus in two corpora, one containing high, the other low findable documents. For this, the experimental setup has to be provided and the split done again.<br />Afterwards merging strategies that combine the low and high result sets in different ways are tested with the presumption that low retrievable documents are now higher ranked and thus improve recall. This is tested with several models of three different retrieval engines, namely Terrier, Lemur and Solr. Evaluation shows that in most cases the models do not seem to be suitable for this merging, regarding recall and MAP values. Only precision at high rank seems to improve in general. The few models that perform better and which attributes make them more suitable are explained.