Mitigating the bias of retrieval systems by corpus splitting : an evaluation in the patent retrieval domain

Weigl, Elisabeth

DC Field

Value

Language

dc.contributor.advisor

Rauber, Andreas

dc.contributor.author

Weigl, Elisabeth

dc.date.accessioned

2020-06-30T00:12:11Z

dc.date.issued

2011

dc.date.submitted

2011-09

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Weigl, E. (2011). <i>Mitigating the bias of retrieval systems by corpus splitting : an evaluation in the patent retrieval domain</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-41406</div> </div>

dc.identifier.uri

https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-41406

dc.identifier.uri

http://hdl.handle.net/20.500.12708/9315

dc.description

Zsfassung in dt. Sprache

dc.description.abstract

Üblicherweise suchen Information Retrieval Systeme eine kleine Anzahl an Dokumenten, die möglichst genau der Suche entsprechen. Die Patentdomäne hingegen ist auf hohen Recall angewiesen und darf kein einziges relevantes Dokument im Prozess der Patentanmeldung übersehen, da die Folge teure Gerichtsverfahren sein können wenn die Bewilligung für ein Patent später ungültig wird. Es hat sich jedoch herausgestellt, dass einige Dokumente von Retrievalsystemen, die eine Präferenz zu bestimmten Dokumenten aufweisen, gar nicht gefunden werden können. Das Ziel dieser Arbeit ist daher, die Herangehensweise einer anderen Publikation, die sich mit der Auffindbarkeit (retrievability) von Dokumenten beschäftigt, weiterzuentwickeln. Die Basis dafür ist das Teilen eines einzigen Dokumentenkorpus in zwei Korpora, wobei einer davon ausschließlich gut auffindbare, der andere hingegen ausschließlich schlecht auffindbare Dokumente enthält. Dazu muss zunächst sowohl der Versuchsaufbau als auch die Korpusteilung neu gemacht werden. Danach werden verschiedene Kombinierungsstrategien, die die Resultate der schlecht und gut auffindbaren Korpora verbinden, unter der Annahme getestet, dass die vormals schlecht auffindbaren Dokumente nun einen besseren Rang erhalten und dadurch den Recall verbessern. Dieses wird mit mehreren Retrievalmodellen dreier Retrievalsysteme (Terrier, Lemur, Solr) getestet. Das Ergebnis zeigt, dass sich die meisten Retrievalmodelle nicht gut für diese Kombinierung eigenen, vor allem bezogen auf MAP und Recall Werte. Nur die Precision auf hohen Rängen verbessert sich bei fast allen Retrievalmodellen. Einige der Modelle allerdings liefern bessere Ergebnisse als andere, weshalb die Eigenschaften, die sie geeigneter dafür machen, aufgezeigt und diskutiert werden.<br />

dc.description.abstract

Typical information retrieval systems retrieve a low number of documents that are preferably close to the query. In contrast to that stands the patent domain as a recall oriented field where missing one single document in the patentability process can lead to costly law suits afterwards if a granted patent is invalidated. However, research showed that retrieval engines cannot find certain documents because they show a bias towards other document characteristics. Thus the goal of this work is to look further into one approach that deals with retrievability of documents and splits a single corpus in two corpora, one containing high, the other low findable documents. For this, the experimental setup has to be provided and the split done again.<br />Afterwards merging strategies that combine the low and high result sets in different ways are tested with the presumption that low retrievable documents are now higher ranked and thus improve recall. This is tested with several models of three different retrieval engines, namely Terrier, Lemur and Solr. Evaluation shows that in most cases the models do not seem to be suitable for this merging, regarding recall and MAP values. Only precision at high rank seems to improve in general. The few models that perform better and which attributes make them more suitable are explained.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

Retrievability

dc.subject

Korpusteilung

dc.subject

Retrievalsystem Bias

dc.subject

Patentsuche

dc.subject

Prior-Art Suche

dc.subject

Resultsetkombinierung

dc.subject

Patente

dc.subject

Information Retrieval

dc.subject

retrievability

dc.subject

corpus split

dc.subject

retrieval system bias

dc.subject

patent retrieval

dc.subject

recall oriented

dc.subject

prior art search

dc.subject

result set merging

dc.subject

patents

dc.subject

information retrieval

dc.title

Mitigating the bias of retrieval systems by corpus splitting : an evaluation in the patent retrieval domain

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Elisabeth Weigl

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

tuw.publication.orgunit

E188 - Institut für Softwaretechnik und Interaktive Systeme

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC07811458

dc.description.numberOfPages

109

dc.identifier.urn

urn:nbn:at:at-ubtuw:1-41406

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.orcid

0000-0002-9272-6225

item.languageiso639-1

item.openairetype

master thesis

item.grantfulltext

open

item.fulltext

with Fulltext

item.cerifentitytype

Publications

item.mimetype

application/pdf

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.openaccessfulltext

Open Access

crisitem.author.dept

TU Wien

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(1.52 MB)

In Copyright

Show simple item record

Page view(s)

394

checked on Nov 22, 2023

Download(s)

129

checked on Nov 22, 2023

Google Scholar^TM

Check

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM