<div class="csl-bib-body">
<div class="csl-entry">Weigl, E. (2011). <i>Mitigating the bias of retrieval systems by corpus splitting : an evaluation in the patent retrieval domain</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-41406</div>
</div>
Üblicherweise suchen Information Retrieval Systeme eine kleine Anzahl an Dokumenten, die möglichst genau der Suche entsprechen. Die Patentdomäne hingegen ist auf hohen Recall angewiesen und darf kein einziges relevantes Dokument im Prozess der Patentanmeldung übersehen, da die Folge teure Gerichtsverfahren sein können wenn die Bewilligung für ein Patent später ungültig wird. Es hat sich jedoch herausgestellt, dass einige Dokumente von Retrievalsystemen, die eine Präferenz zu bestimmten Dokumenten aufweisen, gar nicht gefunden werden können. Das Ziel dieser Arbeit ist daher, die Herangehensweise einer anderen Publikation, die sich mit der Auffindbarkeit (retrievability) von Dokumenten beschäftigt, weiterzuentwickeln. Die Basis dafür ist das Teilen eines einzigen Dokumentenkorpus in zwei Korpora, wobei einer davon ausschließlich gut auffindbare, der andere hingegen ausschließlich schlecht auffindbare Dokumente enthält. Dazu muss zunächst sowohl der Versuchsaufbau als auch die Korpusteilung neu gemacht werden. Danach werden verschiedene Kombinierungsstrategien, die die Resultate der schlecht und gut auffindbaren Korpora verbinden, unter der Annahme getestet, dass die vormals schlecht auffindbaren Dokumente nun einen besseren Rang erhalten und dadurch den Recall verbessern. Dieses wird mit mehreren Retrievalmodellen dreier Retrievalsysteme (Terrier, Lemur, Solr) getestet. Das Ergebnis zeigt, dass sich die meisten Retrievalmodelle nicht gut für diese Kombinierung eigenen, vor allem bezogen auf MAP und Recall Werte. Nur die Precision auf hohen Rängen verbessert sich bei fast allen Retrievalmodellen. Einige der Modelle allerdings liefern bessere Ergebnisse als andere, weshalb die Eigenschaften, die sie geeigneter dafür machen, aufgezeigt und diskutiert werden.<br />
de
dc.description.abstract
Typical information retrieval systems retrieve a low number of documents that are preferably close to the query. In contrast to that stands the patent domain as a recall oriented field where missing one single document in the patentability process can lead to costly law suits afterwards if a granted patent is invalidated. However, research showed that retrieval engines cannot find certain documents because they show a bias towards other document characteristics. Thus the goal of this work is to look further into one approach that deals with retrievability of documents and splits a single corpus in two corpora, one containing high, the other low findable documents. For this, the experimental setup has to be provided and the split done again.<br />Afterwards merging strategies that combine the low and high result sets in different ways are tested with the presumption that low retrievable documents are now higher ranked and thus improve recall. This is tested with several models of three different retrieval engines, namely Terrier, Lemur and Solr. Evaluation shows that in most cases the models do not seem to be suitable for this merging, regarding recall and MAP values. Only precision at high rank seems to improve in general. The few models that perform better and which attributes make them more suitable are explained.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Retrievability
de
dc.subject
Korpusteilung
de
dc.subject
Retrievalsystem Bias
de
dc.subject
Patentsuche
de
dc.subject
Prior-Art Suche
de
dc.subject
Resultsetkombinierung
de
dc.subject
Patente
de
dc.subject
Information Retrieval
de
dc.subject
retrievability
en
dc.subject
corpus split
en
dc.subject
retrieval system bias
en
dc.subject
patent retrieval
en
dc.subject
recall oriented
en
dc.subject
prior art search
en
dc.subject
result set merging
en
dc.subject
patents
en
dc.subject
information retrieval
en
dc.title
Mitigating the bias of retrieval systems by corpus splitting : an evaluation in the patent retrieval domain
en
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Elisabeth Weigl
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
tuw.publication.orgunit
E188 - Institut für Softwaretechnik und Interaktive Systeme