Rupprecht, V. (2022). Automated detection of misinformation sources on social media [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2022.96465
E194 - Institut für Information Systems Engineering
-
Date (published):
2022
-
Number of Pages:
89
-
Keywords:
Fake News; Soziale Medien; Natural Language Processing; Maschinelles Lernen; Language Modeling
de
Fake News; Social Media; Natural Language Processing; Machine Learning; Language Modeling
en
Abstract:
Falschinformationen und Fake News stellen eine große Herausforderung für unsere Gesellschaft dar. Diese haben die öffentliche Meinung gegenüber der COVID-19-Pandemie, der US-Präsidentschaftswahl 2016 oder der russischen Invasion in die Ukraine beeinflusst. Soziale Medien spielen als ein beliebtes Nachrichtenedium eine wichtige Rolle bei der Verbreitung von Falschinformationen und erreichen somit eine große Anzahl an Menschen.Nachrichtenartikel, die in sozialen Medien geteilt werden, werden zuvor in der Regel auf einer Website veröffentlicht, sogenannte Nachrichtenquellen. Da einige Nachrichtenquellen regelmäßig Fake News veröffentlichen, haben Experten begonnen die Vertrauenswürdigkeit von Nachrichtenquellen zu bewerten, indem sie deren Faktentreue, politische Einstellungen, Transparenz oder Sympathie für Verschwörungstheorien überprüfen. Dazu ist eine gründliche Analyse der Nachrichtenquelle und ihrer veröffentlichten Artikel erforderlich, was Zeit in Anspruch nimmt und somit nur einen Teil der tatsächlich existierenden Nachrichtenquellen abdecken kann, was vor allem Englischsprachige sind. Daher müssen automatisierte Lösungen erforscht werden, die in der Lage sind die große Zahl der vorhandenen Nachrichtenquellen zu beurteilen.Obwohl es viel Forschung zur automatischen Erkennung von Fake News Artikeln gibt, existieren bisher wenig Lösungsansätze, die die Glaubwürdigkeit von Nachrichtenquellen klassifizieren. Da in den bisherigen Ansätzen Informationen aus soziale Medien kaum berücksichtigt wurden, stellen wir ein auf maschinellem Lernen basierendes System vor, das die Glaubwürdigkeit einer Nachrichtenquelle anhand von Informationen aus Beiträgen in sozialen Medien bewertet, die einen Artikel dieser Quelle geteilt haben. Genauer gesagt sammeln wir Beiträge und Benutzerinformationen von Twitter und Facebook sowie die Artikel, die sie geteilt haben, und extrahieren Textmerkmale aus den Artikeln, den Beiträgen und der Selbstbeschreibungen der Nutzer mit Hilfe des vortrainierten Sprachmodells RoBERTa. Nachdem wir diese Informationen mit Metadaten von Nutzern und Beiträgen kombiniert haben, erhalten wir mit Hilfe eines LSTMs einen repräsentativen Vektor für die Nachrichtenquelle, welchen wir als Grundlage für die Klassifizierung verwenden. Die Auswertung unseres Modells zeigt, dass wir den Stand der Technik nicht verbessern konnten und die meisten der von uns erkannten Nachrichtenquellen für Falschinformation in Wirklichkeit korrekte Nachrichten veröffentlichen. Allerdings zeigte unser Modell eine vielversprechende Genauigkeit von fast 92% bei der Erkennung korrekter Nachrichtenquellen.
de
Misinformation and fake news pose major challenges for our society. False information has influenced public opinion regarding the COVID-19 pandemic, the US presidential election in 2016, or the Russian invasion of Ukraine. As a popular news medium, social media plays an important role in spreading false information and reaching a large audience.News articles shared on social media are usually published on a website in the first place, so-called news sources. Since some news sources regularly publish fake news stories, human experts have started to assess the reliability of news sources by classifying their factual fidelity, political bias, transparency, or sympathy towards conspiracy theories. To do so, a thorough analysis of a news source and its published articles is necessary, which takes time and therefore can only cover a subset of news sources, primarily English speaking. Thus, automated approaches need to be researched, which are able to handle the vast number of existing news sources.Although a lot of research regarding the automated detection of fake news articles exists, not much has been done yet in terms of the credibility classification of news sources. As existing work lacks information available on social media, we propose a framework based on Machine Learning that classifies the reliability of a news source by leveraging information from social media posts that shared an article of the given source. More specifically, we collect posts and user information from Twitter and Facebook as well as the articles referenced in the posts, and extract textual features from the articles, the posts, and the self-descriptions of users applying the pre-trained language model RoBERTa. After combining these features with metadata from users and posts, we aggregate them into a representational vector for the news source using an LSTM, which will be the input of our classifier. The evaluation of our model shows that we could not improve state-of-the-art approaches and most of our detected misinformation sources are actually publishing accurate news. However, our model showed a promising precision of almost 92% when detecting accurate news sources.