<div class="csl-bib-body">
<div class="csl-entry">Darmanovic, F. (2022). <i>SCI-3000: A novel dataset for the task of figure, table, and caption extraction from scientific PDFs</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2022.94800</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2022.94800
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/81300
-
dc.description.abstract
Durch den ständigen Anstieg an visuell-dargestellten Informationen in wissenschaftlichen Publikationen, steigt auch die Nachfrage, diese Informationen maschinell verarbeitbar zu machen.Anwendungen für Bilder und ähnliche visuellen Objekte reicht von Suchmachinen bis hin zu crossmedialen Machine Learning Ansätzen. Da die Aufgabe der Extrahierung von Elementen aus Dokumenten, sogar nativ-digitalen, keine triviale Tätigkeit ist, hat sich ein ganzer Forschungsfeld drum entwickelt. Wegen einem Mangel an Datensätzen für Evaluierung und Machine Learning ist aber der Fortschritt in diesem Forschungsfeld beeinträchtigt. In dieser Publikation annotieren wir Figuren, Tabellen, und Bildunterschriften in einem Korpus mit 3000 Publikationen aus den Forschungsfeldern Informatik, Biomedizin, Chemie, Physik, und Technologie, mithilfe der Crowd-Sourcing Platform Amazon Mechanical Turk (AMT). Wir veröffentlichen diese Annotationen zusammen mit den dazugehörigen Publikationen in einem Datensatz namens SCI-3000. Dieser Datensatz wird dann zum Vergleich von zwei neuartigen Ansätzen für die Extrahierung von Bilder, Tabellen und Bildunterschriften eingesetzt. Einer von diesen Ansätzen ist regelbasiert, und einer ist Deep Learning-basiert. Der letztgennante Ansatz war der bessere von den Beiden, mit einem durchnittlichen F1-Score von 0.78. Dieses Ergebnis deutet darauf hin, dass Deep-Learning Ansätze bei der Suche nach mehr Effizienz im Fokus bleiben sollten, besonders wenn es um Bildunterschriftextrahierung geht.
de
dc.description.abstract
With the amount of information presented visually in scientific publications constantly on the rise, the demand for making this information machine-actionable is also rising.Usages for figures and similar visual elements range from search engines to cross-media machine learning approaches. As the task of extracting objects from documents, even born-digital ones, is non-trivial, an entire research field has formed around solving it. However, progress is impeded by a lack of datasets for evaluation and machine learning. In this work, we use the crowd-sourcing platform Amazon Mechanical Turk (AMT) to annotate figures, tables, and corresponding captions in a corpus of 3000 publications from the fields of computer science, biomedicine, chemistry, physics, and technology. We release these annotations together with their source publications in a dataset we call SCI-3000. This dataset is then used to benchmark two figure, table, and caption extraction approaches from recent literature: one rule-based, and one deep learning-based. The latter approach performed better of the two, with an average F1 score of 0.78, suggesting that deep-learning approaches should be explored further in the pursuit of higher efficacy, especially in the task of caption extraction.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Page Object Detection
en
dc.subject
Figure Extraction
en
dc.subject
Table Extraction
en
dc.subject
Caption Extraction
en
dc.subject
PDF
en
dc.title
SCI-3000: A novel dataset for the task of figure, table, and caption extraction from scientific PDFs
en
dc.title.alternative
SCI-3000: Ein neuartiger Datensatz für die Aufgabe der Extrahierung von Bilder, Tabellen, und Bildunterschriften aus wissenschaftlichen PDFs
de
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2022.94800
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Filip Darmanovic
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
dc.contributor.assistant
Zlabinger, Markus
-
tuw.publication.orgunit
E194 - Institut für Information Systems Engineering
-
dc.type.qualificationlevel
Diploma
-
dc.identifier.libraryid
AC16667011
-
dc.description.numberOfPages
90
-
dc.thesistype
Diplomarbeit
de
dc.thesistype
Diploma Thesis
en
dc.rights.identifier
In Copyright
en
dc.rights.identifier
Urheberrechtsschutz
de
tuw.advisor.staffStatus
staff
-
tuw.assistant.staffStatus
staff
-
tuw.advisor.orcid
0000-0002-7149-5843
-
item.languageiso639-1
en
-
item.openairetype
master thesis
-
item.grantfulltext
open
-
item.fulltext
with Fulltext
-
item.cerifentitytype
Publications
-
item.mimetype
application/pdf
-
item.openairecristype
http://purl.org/coar/resource_type/c_bdcc
-
item.openaccessfulltext
Open Access
-
crisitem.author.dept
E193 - Institut für Visual Computing and Human-Centered Technology