Language model driven analysis : simplifying text on an individual scale

Strelzow, Alexej

doi:10.34726/hss.2016.35681

DC Field

Value

Language

dc.contributor.advisor

Hanbury, Allan

dc.contributor.author

Strelzow, Alexej

dc.date.accessioned

2020-06-29T12:25:32Z

dc.date.issued

2016

dc.date.submitted

2016-11

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Strelzow, A. (2016). <i>Language model driven analysis : simplifying text on an individual scale</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2016.35681</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2016.35681

dc.identifier.uri

http://hdl.handle.net/20.500.12708/6392

dc.description

Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers

dc.description

Zusammenfassung in deutscher Sprache

dc.description.abstract

Das Ziel dieser Arbeit ist es ein Tool bereit zu stellen, das Personen (Benutzern) beim Verstehen von schweren Texten, z.B. Publikationen eines Forschers, individuell unterstützt. Basierend auf einer Sammlung von Dokumenten des Benutzers stellen wir eine neuartige Methode vor Wörter in einem neuen Dokument, welcher er oder sie lesen möchte, zu finden, welche dem Benutzer mit großer Wahrscheinlichkeit unbekannt sind. Außerdem erklären wir diese Wörter mit Hilfe von externen Datenquellen. Unser Tool stellt das analysierte Dokument Seite für Seite dar und zeigt dem Benutzer eine Liste von gefundenen, unbekannten Wörtern und deren Erklärung zu der jeweiligen Seite. Wir implementierten einen Prototypen, welcher Sprachmodelle (Benutzer- und Dokumentenmodelle) aus Text generiert, diese miteinander vergleicht und die als unbekannt befundenen Wörter erklärt. Das Benutzermodell ist eine Abstraktion von seinen Sprachkenntnissen im Sinne von bekanntem Vokabular. Wir schätzen die Menge an bekannten Wörtern mit Hilfe der geschriebenen Dokumenten vom Benutzer (domänenspezifische Komponente) und einer sehr umfassenden Wortliste, bestehend aus zeitgenössischem amerikanischen Englisch (generelle Komponente). Der Algorithmus, der die Modelle vergleicht, nimmt die Sprachmodelle als Eingabe und identifiziert mögliche unbekannte Wörter basierend auf semantischen und statistischen Methoden. Um unbekannte Wörter erklären zu können verwenden wir BabelNet, ein großes semantisches Wörterbuch. Um herauszufinden ob unsere Vorgehensweise funktioniert haben wir zuerst ein Testset aus Sprachmodellen erstellt und danach quantitative und qualitative Experiment durchgeführt. Dokumente für die Generierung von Benutzermodellen stammen von der DBLP Computerwissenschaftsbibliographie, einer Datenbank für bibliographische Metadaten. In unseren Experimenten haben wir Benutzermodelle (aus der IT Domäne) mit den Dokumentenmodellen aus den Domänen der IT (equi-domain Experimente) und Medizin (cross-domain Experimente) verglichen. Die medizinischen Journalartikel stammen aus PubMed, einer Metadatenbank der Biomedizin. Nach 360 Experimenten (180 pro Domäne) haben wir beobachtet, dass im Durchschnitt beinahe zwei Mal die Menge an unbekannten Wörtern in Dokumenten aus der medizinischen Domäne, im Kontrast zu Dokumenten aus der IT Domäne, gefunden wurden. Im Vergleich zu den equi-domain Experimenten, haben wir in den cross-domain Experimenten beobachtet, dass die Mehrzahl an unbekannten Wörtern domänenspezifischer Natur sind und nicht generellen Ursprungs. Wir haben auch eine negative Korrelation (Kendall's Τ= -0.82) zwischen dem geschätzten Sprachniveau des Benutzers und der Summe der unbekannten Wörter nachgewiesen.

dc.description.abstract

The goal of this thesis is to provide a tool that individually supports people (users) to comprehend relatively challenging textual resources like a researcher's published papers. Therefore, based on a user's document collection, we introduce a novel approach to detect words in a new document he or she might be reading that are most likely to be unknown to the user. Furthermore, we explain those words by utilizing external data sources. Our tool visualizes the analyzed document page by page and provides the user with a list of detected, possibly unknown words and their meaning with respect to the currently viewed page. We implemented a proof of concept application to generate language models (user and document models) from text, compare them with each other, and provide an explanation of the words identified as unknown. The user model is an abstraction of the user's language skills in terms of known vocabulary. We estimate this set of known words by considering the user's written documents as a domain specific component and a very comprehensive frequent word list of contemporary American English as a general component. The model comparison algorithm takes a user and a document model as input and identifies possible unknown words based on semantical and statistical methods. To explain the words that are considered to be unknown to the user, we use BabelNet, a large semantic dictionary. To validate our approach, first, we have created a test set of user and document models and second, conducted quantitative and qualitative experiments based on them. The underlying document collection of our user models has been identified using the DBLP computer science bibliography, a database for bibliographic metadata. In our conducted experiments, we compare user models from the domain of computer science (CS) with document models from the domains of CS (equi-domain experiments) and medicine (cross-domain experiments). We obtained the medical journal articles from PubMed, a meta-database for the area of biomedicine. After 360 completed experiments (180 for each domain), we witnessed that on average almost twice the amount of unknown words have been found in documents from the medical domain in contrast to documents from the CS domain. Furthermore, in contrary to the equi-domain experiments, the cross-domain experiments revealed that the majority of unknown words were domain specific words and not general terms. We also revealed a negative correlation (Kendall's Τ= -0.82) between the estimated language level of the user and the sum of detected unknown words with respect to the user.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

Computerlinguistik

dc.subject

natürliche Sprachverarbeitung

dc.subject

Informationsrückgewinnung

dc.subject

computational linguistics

dc.subject

natural language processing

dc.subject

information retrieval

dc.title

Language model driven analysis : simplifying text on an individual scale

dc.title.alternative

Benutzerzentrierte Modelle - Versuch unbekannte Wörter zu finden

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2016.35681

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Alexej Strelzow

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

dc.contributor.assistant

Lupu, Mihai

tuw.publication.orgunit

E188 - Institut für Softwaretechnik und Interaktive Systeme

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC13386803

dc.description.numberOfPages

dc.identifier.urn

urn:nbn:at:at-ubtuw:1-92858

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

tuw.assistant.staffStatus

staff

tuw.advisor.orcid

0000-0002-7149-5843

item.languageiso639-1

item.openairetype

master thesis

item.grantfulltext

open

item.fulltext

with Fulltext

item.cerifentitytype

Publications

item.mimetype

application/pdf

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.openaccessfulltext

Open Access

crisitem.author.dept

E183 - Institut für Rechnergestützte Automation

crisitem.author.parentorg

E180 - Fakultät für Informatik

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(1.41 MB)

In Copyright

Show simple item record

Page view(s)

342

checked on Nov 19, 2023

Download(s)

328

checked on Nov 19, 2023

Google Scholar^TM

Check

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM