E194 - Institut für Information Systems Engineering
-
Date (published):
2023
-
Number of Pages:
83
-
Keywords:
Fake News; Propaganda; Fake News Detection; Fact-Checking; Sentiment Analysis; Machine Learning; Deep Learning; Natural Language Processing
en
Abstract:
Online-Medienplattformen wie soziale Netzwerke und Online-Nachrichtenplattformen haben sich als Hauptquellen für den Zugriff auf Nachrichten etabliert, aufgrund ihrer geringen Kosten, einfachen Zugänglichkeit und Attraktivität. Infolgedessen verbringen Menschen zunehmend mehr Zeit auf diesen Plattformen. Die große Datenmenge und die Entwicklung von Fake News mithilfe raffinierter Deep-Learning-Algorithmen erschweren jedoch Experten die manuelle Überprüfung der Inhalte. Daher ist die Entwicklung automatisierter Fact-Checking-Tools und Lösungen zur Erkennung von Fake News unerlässlich, um die Verbreitung nicht überprüfter Informationen über verschiedene Plattformen hinweg einzudämmen. Die Vielzahl verfügbarer Ansätze erschwert jedoch die Auswahl der geeignetsten Methode für spezifische Anwendungsfälle von Forschern und Praktikern. Zudem variiert die Charakteristik von Fake News in unterschiedlichen Domänen. Das Hauptziel dieser Forschung ist daher die Bewertung bestehender Methoden und die Durchführung eines umfangreichen Leistungsvergleichs von Machine-Learning- und Deep-Learning-Algorithmen, einschließlich Support Vector Machines (SVM), Naive Bayes und einem Deep Neural Network, unter Verwendung verschiedener Datensätze aus verschiedenen Domänen. Die Studie untersucht auch den Einfluss der Einbeziehung von Sentiment-Analyse auf die Klassifikationsleistung, um Erkenntnisse über die Effektivität der Sentiment-Analyse als ergänzende Komponente zu gewinnen. Durch diese umfassende Bewertung soll die Arbeit den Entscheidungsprozess erleichtern und bei der Auswahl einer geeigneten Methode zur Fake News-Erkennung für individuelle Anwendungsfälle unterstützen. Die Forschung beginnt mit einer umfassenden Literaturrecherche, um geeignete Algorithmen und vorherrschende Domänen für die Aufgabe zu identifizieren. Anschließend werden die ausgewählten Algorithmen auf vier verschiedene Datensätze angewendet und trainiert, die Politik, Gesundheit, Klimawandel und soziale Medien repräsentieren. Die Leistungsbewertung unter Verwendung von Testdaten aus jeder Kategorie zeigt, dass SVM konsistent bessere Ergebnisse erzielt als andere Algorithmen und die höchste Genauigkeit erreicht. Das neuronale Netzwerk zeigt jedoch bessere Leistung bei unausgewogenen Datensätzen, was auf sein Potenzial bei der Handhabung solcher Datenverteilungen hinweist. Es ist anzumerken, dass unausgewogene Datensätze negative Auswirkungen auf neuronale Netzwerke haben können, was zu Overfitting und geringerer Verallgemeinerungsfähigkeit für Minderheitsklassen führt. Dennoch erfordert das neuronale Netzwerk-Modell deutlich weniger Rechenaufwand. Darüber hinaus zeigen die Ergebnisse, dass die Einbeziehung von Sentiment-Analyse keine signifikanten Verbesserungen bringt und in einigen Fällen sogar zu leicht schlechterer Leistung führt. Dies ist auf die unterschiedliche Verteilung der Sentiment-Klassen zwischen Fake News und echten Nachrichten innerhalb jedes Datensatzes zurückzuführen. Daher wird festgestellt, dass die alleinige Einbeziehung von Sentiment-Analyse als ergänzendes Merkmal die Gesamtleistung der Fake News Erkennung nicht verbessert. Es wird jedoch empfohlen, eine Kombination aus einem neuronalen Netzwerk und einem ausgewogeneren Datensatz zu verwenden, um sowohl Ressourcenbeschränkungen als auch Leistungskennzahlen zu berücksichtigen.
de
Online media platforms, such as social networks and online news platforms, have emerged as primary sources for accessing and consuming news, due to their low cost, ease of access, and attractiveness. Consequently, individuals are increasingly spending more time on these platforms. However, the vast volume of data and the evolution of fake news through the use of sophisticated deep learning algorithms present challenges for experts to manually examine the content. As a result, the development of automated fact-checking tools and fake news detection solutions has become essential to combat the propagation of unverified information across diverse platforms. However, the multitude of available approaches complicates the task of researchers and practitioners in selecting the most appropriate method for their specific use cases. Moreover, the characteristics of fake news varies across different domains. Therefore, the primary objective of this research is to assess the existing methods and to conduct a large-scale performance comparison of machine learning and deep learning algorithms, including Support Vector Machines (SVM), Naive Bayes, and a Deep Neural Network, utilizing diverse datasets from various domains. The study also explores the impact of incorporating sentiment analysis on the classification performance, aiming to provide insights into the effectiveness of sentiment analysis as a supplementary component. By undertaking this comprehensive evaluation, the thesis aims to facilitate the decision-making process and aid in the selection of an appropriate fake news detection method for individual use cases. The research begins with a comprehensive literature review to identify appropriate algorithms and prevalent domains for the task. Subsequently, the selected algorithms are implemented and trained on four distinct datasets representing politics, health, climate change, and social media. Performance evaluation using test data from each category reveals that SVM consistently outperforms other algorithms, achieving the highest accuracy. However, the neural network demonstrates better performance when confronted with imbalanced datasets, highlighting its potential in handling such data distributions. It is noted that imbalanced datasets can negatively impact neural networks, leading to overfitting and reduced generalization for minority classes. Nonetheless, the neural network model requires significantly less computational effort. Furthermore, the findings indicate that the inclusion of sentiment analysis does not lead to significant improvements and, in some cases, even results in slightly lower performance. This can be attributed to the varying distribution of sentiment classes between fake news and real news within each dataset. Consequently, it is concluded that incorporating sentiment analysis as a complementary feature alone does not enhance the overall performance of fake news detection. However, it is suggested that a combination of a Neural Network with a more balanced dataset achieves promising outcomes considering both resource constraints and performance metrics.