Solich, T. C. (2016). Analysis of the social network amongst artists on Wikipedia [Diploma Thesis, Technische Universität Wien]. reposiTUm.
Wikipedia; Wikidata; ULAN; Art; Social network analysis; Graph theory; Information search; Search engine; Name matching; Key performance indicators
Das Internet spielt als Wissensquelle eine immer wichtigere Rolle. Wikipedia, eine der größten frei zugänglichen Enzyklopädien, mit zahlreichen Artikeln in verschiedenen Sprachen, ist für viele Menschen ein wesentlicher Bestandteil bei der Internet-Recherche geworden. Da grundsätzlich jede Person Wikipedia Artikel erstellen und editieren kann, sind diese so verschieden wie die Autoren selbst. Abhängig von den jeweiligen Sprachversionen werden Artikel zu verschiedenen Themen bzw. Artikel zum gleichen Thema mit eventuell anderem Inhalt erstellt. Somit stellt sich die Frage, wie vollständig und verlässlich die auf Wikipedia verfügbaren Artikel und Informationen sind. Im Rahmen dieser Arbeit wurde analysiert, wie groß die Unterschiede zwischen den Sprachversionen der einzelnen Wikipedia Artikel sind bzw. wie vollständig Artikel im Bezug auf Beziehungsinformationen dargestellt sind. Aufgrund der enormen Anzahl von Artikeln wurde nicht die gesamte Enzyklopädie überprüft, sondern nur Artikel aus dem Bereich Kunst in den drei Sprachversionen, Deutsch, Englisch und Italienisch. Bei den relevanten Artikeln wurden die Unterschiede zwischen den Sprachversionen im Bereich sozialer Netzwerke von Künstlern quantifiziert und verglichen. Es wurde ebenfalls überprüft, ob nationale Künstler in den jeweiligen Wikipedia-Sprachversionen bevorzugt behandelt werden. Um die Vollständigkeit der Artikel zu verifizieren, wurden Beziehungen die in Form von Links in Artikeln enthalten sind, mit Informationen aus zwei anderen Quellen abgeglichen. Diese Quellen sind die Union List of Artist Names (ULAN) sowie Wikidata. ULAN ist ein Verzeichnis welches Einträge über Künstler, kunstverwandte Personen und Objekte enthält. Wikidata ist eine Datenquelle für verschiedene Wikimedia Projekte. Daraus wurden z.B. Beziehungsinformationen und andere, für die Analyse relevante Informationen, erhoben. In dieser Arbeit wurde eine vergleichende, quantitative, empirische Studie mit bereits bestehenden Materialien und Informationen durchgeführt. Mit einem eigens entwickelten Programm wurden Daten aus Wikipedia, Wikidata und ULAN gesammelt und für weitere Analysen aufbereitet. Zur Auswertung wurden spezielle Key Performance Indikatoren entwickelt, die anschließend zur Beantwortung der Fragestellungen herangezogen wurden. Als weitere Analysemethode wurde die Graphentheorie eingesetzt, mit der soziale Netzwerke noch detaillierter betrachtet werden können. Die Ergebnisse sind mit Praxisbeispielen und Visualisierungen untermauert.
The importance of the Internet as a source of information and knowledge is constantly increasing. Wikipedia is one of the largest freely available encyclopaedias. It contains a high number of articles in different languages. Many people start their research for a topic on Wikipedia. There, everybody can create and edit articles. As a consequence, treated topics are as diverse as the user base itself. Depending on the different language versions, articles about different topics are created or articles about the same topic may contain different information. The main question which arises is, how complete and reliable information and articles on Wikipedia are. In the course of this thesis differences among the language versions were analysed and quantified with respect to listed relationships in articles. Due to the high number of articles and language versions not the whole encyclopaedia was analysed but only a subset of articles - namely articles about arts in the language versions English, German and Italian. Relevant articles were compared on information about the social network amongst artists. Furthermore, the thesis covered the issue whether articles about artists are more detailed in the "national" Wikipedia version. In the examination only relationships contained as hyperlinks in articles were considered. To verify completeness two other sources of information, the Union List of Artist Names (ULAN) and Wikidata, were adduced. ULAN is a directory which contains (relationship-)information about artists, art-related persons and art-related objects. Wikidata is a source of information for different Wikimedia projects. From there, relationship- but also other information was collected, which was relevant for analysis purposes. This thesis is a comparative, quantitative, empirical study which is based on existing documents. Data was collected and classified from the three sources with a self-developed program. Apart from the program, key performance indicators were defined to answer the research questions. Besides that, social networks were compared in a more detailed way with graph theoretical metrics. Measures and results were clarified with practical examples and visualisations.