Strelzow, A. (2016). Language model driven analysis : simplifying text on an individual scale [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2016.35681
computational linguistics; natural language processing; information retrieval
en
Abstract:
Das Ziel dieser Arbeit ist es ein Tool bereit zu stellen, das Personen (Benutzern) beim Verstehen von schweren Texten, z.B. Publikationen eines Forschers, individuell unterstützt. Basierend auf einer Sammlung von Dokumenten des Benutzers stellen wir eine neuartige Methode vor Wörter in einem neuen Dokument, welcher er oder sie lesen möchte, zu finden, welche dem Benutzer mit großer Wahrscheinlichkeit unbekannt sind. Außerdem erklären wir diese Wörter mit Hilfe von externen Datenquellen. Unser Tool stellt das analysierte Dokument Seite für Seite dar und zeigt dem Benutzer eine Liste von gefundenen, unbekannten Wörtern und deren Erklärung zu der jeweiligen Seite. Wir implementierten einen Prototypen, welcher Sprachmodelle (Benutzer- und Dokumentenmodelle) aus Text generiert, diese miteinander vergleicht und die als unbekannt befundenen Wörter erklärt. Das Benutzermodell ist eine Abstraktion von seinen Sprachkenntnissen im Sinne von bekanntem Vokabular. Wir schätzen die Menge an bekannten Wörtern mit Hilfe der geschriebenen Dokumenten vom Benutzer (domänenspezifische Komponente) und einer sehr umfassenden Wortliste, bestehend aus zeitgenössischem amerikanischen Englisch (generelle Komponente). Der Algorithmus, der die Modelle vergleicht, nimmt die Sprachmodelle als Eingabe und identifiziert mögliche unbekannte Wörter basierend auf semantischen und statistischen Methoden. Um unbekannte Wörter erklären zu können verwenden wir BabelNet, ein großes semantisches Wörterbuch. Um herauszufinden ob unsere Vorgehensweise funktioniert haben wir zuerst ein Testset aus Sprachmodellen erstellt und danach quantitative und qualitative Experiment durchgeführt. Dokumente für die Generierung von Benutzermodellen stammen von der DBLP Computerwissenschaftsbibliographie, einer Datenbank für bibliographische Metadaten. In unseren Experimenten haben wir Benutzermodelle (aus der IT Domäne) mit den Dokumentenmodellen aus den Domänen der IT (equi-domain Experimente) und Medizin (cross-domain Experimente) verglichen. Die medizinischen Journalartikel stammen aus PubMed, einer Metadatenbank der Biomedizin. Nach 360 Experimenten (180 pro Domäne) haben wir beobachtet, dass im Durchschnitt beinahe zwei Mal die Menge an unbekannten Wörtern in Dokumenten aus der medizinischen Domäne, im Kontrast zu Dokumenten aus der IT Domäne, gefunden wurden. Im Vergleich zu den equi-domain Experimenten, haben wir in den cross-domain Experimenten beobachtet, dass die Mehrzahl an unbekannten Wörtern domänenspezifischer Natur sind und nicht generellen Ursprungs. Wir haben auch eine negative Korrelation (Kendall's Τ= -0.82) zwischen dem geschätzten Sprachniveau des Benutzers und der Summe der unbekannten Wörter nachgewiesen.
de
The goal of this thesis is to provide a tool that individually supports people (users) to comprehend relatively challenging textual resources like a researcher's published papers. Therefore, based on a user's document collection, we introduce a novel approach to detect words in a new document he or she might be reading that are most likely to be unknown to the user. Furthermore, we explain those words by utilizing external data sources. Our tool visualizes the analyzed document page by page and provides the user with a list of detected, possibly unknown words and their meaning with respect to the currently viewed page. We implemented a proof of concept application to generate language models (user and document models) from text, compare them with each other, and provide an explanation of the words identified as unknown. The user model is an abstraction of the user's language skills in terms of known vocabulary. We estimate this set of known words by considering the user's written documents as a domain specific component and a very comprehensive frequent word list of contemporary American English as a general component. The model comparison algorithm takes a user and a document model as input and identifies possible unknown words based on semantical and statistical methods. To explain the words that are considered to be unknown to the user, we use BabelNet, a large semantic dictionary. To validate our approach, first, we have created a test set of user and document models and second, conducted quantitative and qualitative experiments based on them. The underlying document collection of our user models has been identified using the DBLP computer science bibliography, a database for bibliographic metadata. In our conducted experiments, we compare user models from the domain of computer science (CS) with document models from the domains of CS (equi-domain experiments) and medicine (cross-domain experiments). We obtained the medical journal articles from PubMed, a meta-database for the area of biomedicine. After 360 completed experiments (180 for each domain), we witnessed that on average almost twice the amount of unknown words have been found in documents from the medical domain in contrast to documents from the CS domain. Furthermore, in contrary to the equi-domain experiments, the cross-domain experiments revealed that the majority of unknown words were domain specific words and not general terms. We also revealed a negative correlation (Kendall's Τ= -0.82) between the estimated language level of the user and the sum of detected unknown words with respect to the user.
en
Additional information:
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers Zusammenfassung in deutscher Sprache