<div class="csl-bib-body">
<div class="csl-entry">Goedl, M. (2021). <i>Evaluating the Improvement of segmentation and classification algorithms in evidence extraction for legal e-discovery</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/79220</div>
</div>
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/79220
-
dc.description.abstract
Das Ziel der Diplomarbeit ist, zwei Ansätze zur Segmentierung und Klassifizierung von Segmenten im Bereich der inhaltlichen Analyse von Business-Dokumenten quantitativ zu evaluieren. Die Kombination geeigneter Methoden soll dazu führen den Erfolg bei der Analyse zu verbessern. Deshalb wurden für dieses Anwendungsgebiet adäquate Evaluierungsmetriken definiert. Mittels individueller Ergebnisklassen wurden Precision, Recall und F1-Score berechnet und benutzt um die verschiedenen Ansätze zu vergleichen. Für die Evaluierung wurde ein Datensatz verwendet, welcher aus Dokumenten einer synthetischen Kollektion von Business-Dokumenten besteht. Die evaluierten Systeme bestehen aus einem multimodalen Machine Learning und einem heuristischen (textbasierten) Ansatz. Das multimodale Machine Learning System ist wiederum in einen bildbasierten und einen textbasierten Ansatz aufgeteilt. Die Evaluierung ist in drei Teile gegliedert, wobei der erste Teil aus dem Vergleich der beiden Ansätze besteht und zeigen soll, welcher Ansatz bessere Ergebnisse liefert. Der zweite Teil ist eine Evaluierung der Kombination der Ergebnisse und testet, ob die Systeme sich gegenseitig ergänzen und eine höhere Konfidenz für die einzelnen Ergebnisse erreicht werden kann. Letztens, wird die Kombination der Systeme verwendet, um auf weitere Segmente zu schließen und zu evaluieren, wie viel mehr richtige Entitäten durch die zusätzlichen Segmente und den darauf aufbauenden Schlussfolgerungen, erkannt werden können.
de
dc.description.abstract
The aim of this thesis is to quantitatively evaluate two approaches of segmentation and classification algorithms in the field of evidence extraction. The combination of proper methods should lead to an improvement in performance of the analysis of business documents in diverse application scenarios. Therefore, suitable evaluation metrics are defined for this context. In this research customised result classes are used to calculate the precision, recall and F1-score of the different approaches. The used test set originates from a synthetic collection of business documents. The evaluated systems consist of a multimodal machine learning approach and a heuristic (text based) approach. The multimodal machine learning approach is divided into a text based and an image based approach. The evaluation is split into three parts, where the first one consists of the comparison of the approaches and to show which one yields better results. In the second part the combination of the approaches is evaluated to test if they supplement each other and if the combination brings a higher confidence for the individual predictions. Finally, a combination of the approaches will be used to infer additional segments and evaluate how many more correct entities could be predicted.
en
dc.format
xv, 75 Seiten
-
dc.language
English
-
dc.language.iso
en
-
dc.subject
Segmentierung
de
dc.subject
Klassifizierung
de
dc.subject
Document Layout Analysis
de
dc.subject
Machine Learning
de
dc.subject
Heuristik
de
dc.subject
segmentation
en
dc.subject
classification
en
dc.subject
Document Layout Analysis
en
dc.subject
machine learning
en
dc.subject
heuristic
en
dc.title
Evaluating the Improvement of segmentation and classification algorithms in evidence extraction for legal e-discovery
en
dc.title.alternative
Evaluierung von Segmentierungs- und Klassifizierungsalgorithmen in Evidenzextraktion für e-Discovery
de
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.contributor.affiliation
TU Wien, Österreich
-
dc.publisher.place
Wien
-
tuw.thesisinformation
Technische Universität Wien
-
tuw.publication.orgunit
E194 - Institut für Information Systems Engineering