Huber, H. (2012). Maschinelle Wissensgenerierung in der Kunstgeschichte [Diploma Thesis, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/161096
E188 - Institut für Softwaretechnik und Interaktive Systeme
-
Date (published):
2012
-
Number of Pages:
104
-
Keywords:
Informationsextraktion; Linked Data; Text Mining; Thesaurus; ULAN; AAT
de
Information Extraction; Linked Data; Text Mining; Thesaurus; ULAN; AAT
en
Abstract:
Wir ertrinken in Information aber uns durstet nach Wissen. John Naisbitt wollte mit dieser mittlerweile berühmten Aussage auf die täglich generierte Flut an Information aufmerksam machen, die in ihrem Rohzustand kaum nützlich für uns ist. Erst durch manuelle Recherche, Aggregation, Interpretation und adäquate Präsentation wird sie zu einem wertvollen Gut: Wissen. Eine ähnliche Charakteristik kann dem Internet zugesprochen werden. Diese Diplomarbeit beschäftigt sich, anhand eines konkreten Anwendungsfalls aus der Kunstgeschichte, mit der Frage, wie die im Internet öffentlich zugängliche Information maschinell verarbeitet werden kann, um schließlich neue Erkenntnisse daraus abzuleiten. Konkret wurde mit Hilfe von Text Mining Verfahren und Methoden aus dem Natural Language Processing eine Brücke zwischen zwei kontrollierten Vokabularen, sogenannten Thesauri, geschlagen. Die Union List of Artist Names (ULAN) beinhaltet Informationen über etwa 200.000 KünstlerInnen der letzten Jahrhunderte. Es fehlt jedoch die Angabe der kunsthistorsichen Stilepoche, in welcher die KünstlerInnen tätig waren. Im Rahmen der Arbeit wurde der Prototyp ARTMiner implementiert, der personenspezifische Information aus den semantischen Webservices DBpedia und Freebase sammelt und versucht, die zugehörige Stilepoche aus den Texten zu extrahieren. Im Sinne des Linked Data Paradigmas werden diese zunächst literalen Stilepochen auf entsprechende semantische Konzepte aus dem Art and Architecture Thesaurus (AAT) abgebildet. Die Evaluierung ergab eine hohe Validität und Konsistenz der durch den implementierten Prototypen erlangten Ergebnisse. Im Verarbeitungsprozess wurde ein FOAF ähnliches Netzwerk aufgebaut, welches als Grundlage für eine weitere Linkanalyse verwendet werden kann. Des Weiteren wurde ein thesaurus-gestütztes Schlagwortextraktionsverfahren auf Basis von Part-of-Speech-Tagging entwickelt.
We are drowning in information and starved for knowledge. John Naisbitt once used this phrase to point out, that the massive amount of daily produced information in its unprocessed state is hardly useful. Manual investigation, aggregation, interpretation and suitable presentation is needed to produce a valuable good: knowledge. The thesis deals with the question to what extent the publicly available information on the internet can be used to gain new useful knowledge, using the example of art history. Methodologies of Text Mining and Natural Language Processing are used to link two controlled vocabularies, so-called thesauri. The Union List of Artist Names (ULAN) comprises information about more than 200.000 artist from antiquity to the present. Unfortunately the thesaurus does not specify the art-historical style of the respective persons. The implemented prototype ARTMiner uses the knowledge bases DBpedia and Freebase to extract person-specific information and derives the appropriate movement. In order to adhere to the principles of linked data, the literal movement string is mapped the according concept in the Art & Architecture Thesaurus (AAT). The evaluated results show a high degree of validity and consistency. During the mining process, a FOAF-like network of influential artists was generated, which could be used for further link analysis. Additionally, a thesaurus-supported keyword extraction procedure on the basis of part-of-speech tagging was developed.
en
Additional information:
Abweichender Titel laut Übersetzung der Verfasserin/des Verfassers Zsfassung in engl. Sprache