Grill, G. (2023). Network analysis on the Austrian media corpus: Examining measures of co-occurrence between entities in Austrian media [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2023.41932
E188 - Institut für Softwaretechnik und Interaktive Systeme
-
Date (published):
2023
-
Number of Pages:
129
-
Keywords:
network analysis; big data; media analysis
de
News Analysis; Austrian Media Corpus; Network Analysis; Natural Language Processing; Information Extraction; Entity Recognition; Elections; Media Bias; Co-Occurance Networks; Data Mining
en
Abstract:
The quantitative study of news media can provide insights into reporting patterns and enable public discourse. Print media is essential in democratic societies, so its study remains important. This thesis examines Austrian reporting using network-based methods and unpacks the suitability of such an approach for news analysis. We seek to contribute to scholarly debates around the benefits and risks of using such methods to make sense of reporting. We conduct a comparative analysis of six news outlets (Der Standard, Die Presse, Österreich, Die Kronen Zeitung, Kurier, Die Heute) and discuss differences in reporting during the 2016 Austrian presidential elections. This is the first research effort applying a network-based approach to the Austrian Media Corpus (AMC), a complete and unique collection encompassing the last three decades of Austrian media coverage. We use natural language processing to extract an expressive subset of named entities representing network nodes. Several entity recognition schemes are evaluated based on a set of labeled articles. An approach combining named entity linking based on a Wikidata dictionary with an open-source recognition model performed best. The networks are constructed by relating the extracted entities and certain terms when they co-occur in a sentence. We apply various algorithms to the resulting networks to rank entities according to relevance and cluster nodes to detect themes during the election. We provide several descriptive statistics on publishing patterns and the occurrence of entities in the newspapers, revealing gender bias and the presidential candidates most mentioned. Our network-based approach reveals differences in reporting compared to results based on counting mentions. However, we also point out issues of these methods, such as flexibility in parameterization and messy visualizations. We argue these challenges are a double-edged sword as, for example, flexibility may also give researchers agency to enable more exploration and qualitative interpretation.
en
Quantitative Forschung zu Zeitungen kann Einblicke in Berichterstattungsmuster liefern und damit einen öffentlichen Diskurs ermöglichen. Printmedien sind in demokratischen Gesellschaften unverzichtbar, daher bleibt ihre Erforschung wichtig. Diese Arbeit untersucht österreichische Berichterstattung mit netzwerkbasierten Methoden und diskutiert die Eignung eines solchen Ansatzes für die Analyse von Zeitungen. Die Arbeit trägt zu wissenschaftlichen Debatten über die Vorteile und Risiken des Einsatzes solcher Methoden bei. Wir führen eine vergleichende Analyse von sechs Zeitungen durch (Der Standard, Die Presse, Österreich, Die Kronen Zeitung, Kurier, Die Heute) und diskutieren Unterschiede in der Berichterstattung während der österreichischen Präsidentschaftswahlen 2016. Dies ist die erste Forschungsarbeit die einen netzwerkbasierten Ansatz für den Austrian Media Corpus (AMC) anwendet, eine vollständige und einzigartige Sammlung, die die letzten drei Jahrzehnte österreichischer Medienberichterstattung umfasst. Wir wenden Natural Language Processing Methoden an um textliche Referenzen zu Entitäten zu erkennen und daraus, welche die Knoten in den Netzwerken darstellen. Wir evaluieren mehrere Erkennungsalgorithmen für Entitäten anhand von annotierten Artikeln. Die beste Methode war eine Kombination aus einer Erkennung basierend auf Wikidata-Einträgen und einem open-source machine learning Modell. Wir konstruieren die Netzwerke indem extrahierten Entitäten und erkannte Begriffe in Beziehung gesetzt werden, wenn sie in einem Satz gleichzeitig vorkommen. Wir wenden verschiedene Algorithmen auf die resultierenden Netzwerke an, um Entitäten nach Relevanz zu ordnen und Knoten zu gruppieren, um Themen während der Wahl zu erkennen. Wir präsentieren mehrere deskriptive Statistiken zu Veröffentlichungsmustern und dem Auftreten von Entitäten in den Zeitungen, die geschlechtsspezifische Benachteiligungen und die am häufigsten genannten Präsidentschaftskandidaten aufzeigen. Im Vergleich zu diesen Ergebnissen, zeigt unser netzwerkbasierter Ansatz andere Eigenschaften der Berichterstattung auf. Abschließend weisen wir auf Probleme netzwerkbasierender Methoden hin, wie z. B. Flexibilität bei der Parametrisierung und Unübersichtlichkeit von Netzwerkvisualisierungen. Wir argumentieren, dass diese Herausforderungen ein zweischneidiges Schwert sind, da beispielsweise Flexibilität Forschenden auch mehr Möglichkeiten geben kann für Erkundung von Daten und qualitative Interpretation.