<div class="csl-bib-body">
<div class="csl-entry">Rirsch, K. (2021). <i>Extracting tabular data from utility value appraisals</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2023.77704</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2023.77704
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/141972
-
dc.description.abstract
Nutzwertgutachten beinhalten Informationen mit vielen Anwendungen im Marketing und der Analyse von Immobilien in Österreich. Relevante Daten sind vorranging in tabellarischer Form und Dokumente sind als PDF’s verfügbar, die aus gescannten Bildern bestehen. In der Arbeit werden regelbasierte Methoden zur Extraktion von Zieldatenvorgestellt, und deren Ausgaben werden mit der eines kommerziellen Produkts verglichen. Für den Vergleich wird eine Probe von Nutzwertgutachten verwendet, die auch dazu dient eine Ontologie für Zieldaten zu erstellen. Das Ziel der Arbeit war herauszufinden, ob regelbasierte Systeme, die ohne vorklassifizierte Datenbestände auskommen, bessere Resultate als eine moderne Deep-Learning Anwendung liefern können. Precision und Recall wurden als Maßstäbe in den Bereichen der Erkennung von Tabellen, ihrer Struktur, und ihres Inhalts für drei Extraktionssysteme gemessen und verglichen. Der Entwicklungs- und Verarbeitungsprozess der regelbasierten Systeme, sowie Bereiche mit Verbesserungspotential werden anhand von Beispielen veranschaulicht. Der Einfluss von bestimmten Tabellenattributen auf die Ergebnisse wird anhand eines Modells, das verschiedene Arten von Tabellen repräsentiert, untersucht. Die regelbasierten Prototypen konnten nur in Einzelfällen bessere Ergebnisse als das kommerzielle Produkt liefern. Im Zuge der Auswertung hat sich herausgestellt, dass Eigenschaften von Tabellen und die Komplexität ihrer Strukturen Einfluss auf die Ergebnisse von Extraktionssystemen haben können, aber auch, dass andere Faktoren, wie das Umfeld der Tabelle, Textformatierung und die Qualität der Scans Herausforderungen für alle untersuchten Software-Lösungen darstellen.
de
dc.description.abstract
Utility value appraisals contain data that have many applications in marketing and analyzing real-estate in Austria. Relevant information is predominantly represented in tabular format and individual documents are available as PDF’s containing scanned images. Rule-based methods for extracting certain target data are proposed and their output is compared to results from a commercial product. A sample of utility value appraisals is used for ground-truthing and to derive an ontology for relevant data. The aim was to find out whether heuristics that do not rely on the availability of labelled data-sets can outperform a modern Deep-Learning approach. Precision and Recall were used as measurements in the areas of Table-Recognition, Table-Structure-Recognition and Character-Recognition for the performance of three extraction systems to determine the answer. Examples are used to describe development and processing steps as well as to highlight areas for improvement based on the output of the different approaches. The impact of different table attributes on extraction results is examined using a model forrepresenting different types of tables and a sample of utility value appraisals. Even though the prototypes did manage to outperform the commercial product in some cases, it achieved better results overall. We found that the format of a table and its complexity can impact extraction results, but that other factors like scan quality, the environment of a table and text formatting also have significant impact on all software artefacts that were examined.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Nutzwertgutachten
de
dc.subject
table extraction
de
dc.subject
scanned images
de
dc.subject
extraction system
de
dc.subject
utility value appraisal
de
dc.subject
rule-based
de
dc.subject
heuristics
de
dc.subject
table extraction
en
dc.subject
scanned images
en
dc.subject
extraction system
en
dc.subject
utility value appraisal
en
dc.subject
rule-based
en
dc.subject
heuristics
en
dc.title
Extracting tabular data from utility value appraisals
en
dc.title.alternative
Extraktion von tabellarischen Daten aus Nutzwertgutachten
de
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2023.77704
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Klaus Rirsch
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
tuw.publication.orgunit
E194 - Institut für Information Systems Engineering
-
dc.type.qualificationlevel
Diploma
-
dc.identifier.libraryid
AC16743501
-
dc.description.numberOfPages
62
-
dc.thesistype
Diplomarbeit
de
dc.thesistype
Diploma Thesis
en
dc.rights.identifier
In Copyright
en
dc.rights.identifier
Urheberrechtsschutz
de
tuw.advisor.staffStatus
staff
-
tuw.advisor.orcid
0000-0002-7149-5843
-
item.grantfulltext
open
-
item.openairecristype
http://purl.org/coar/resource_type/c_bdcc
-
item.mimetype
application/pdf
-
item.openairetype
master thesis
-
item.openaccessfulltext
Open Access
-
item.languageiso639-1
en
-
item.cerifentitytype
Publications
-
item.fulltext
with Fulltext
-
crisitem.author.dept
E194 - Institut für Information Systems Engineering