Explainable prediction of user post popularity : an analysis of the one million posts corpus

Bogenreiter, Dario

doi:10.34726/hss.2025.122385

Record link:

https://doi.org/10.34726/hss.2025.122385
http://hdl.handle.net/20.500.12708/213422

Title:

Explainable prediction of user post popularity : an analysis of the one million posts corpus

Citation:

Bogenreiter, D. (2025). Explainable prediction of user post popularity : an analysis of the one million posts corpus [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.122385

reposiTUm DOI:

10.34726/hss.2025.122385

CatalogPlus:

AC17473359

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Bogenreiter, Dario

Advisor:

Recski, Gábor

Organisational Unit:

E194 - Institut für Information Systems Engineering

Date (published):

2025

Number of Pages:

Keywords:

Natural Language Processing (NLP); Explainable Artificial Intelligence (XAI); Feature Engineering; Text Classification; Supervised Learning; Post Popularity Prediction; Social Media Popularity Prediction; Automated Content Moderation; Deep Learning; Machine Learning

Abstract:

Diskussionen in den Kommentarbereichen von Zeitungen beeinflussen die öffentliche Meinung erheblich. Die Methoden, die zum Sortieren und Anzeigen von Nutzerbeiträgen verwendet werden, spielen eine entscheidende Rolle bei der Steuerung und Beeinflussung dieser Diskussionen. Die Sortierung wird jedoch oft teilweise von Forenmoderatoren vorgenommen, was zeitaufwändig ist und oftmals ungewünscht von der persönlichen Meinung der Moderatoren beeinflusst wird. Machine-Learning-Modelle, die auf der Grundlage von Nutzerabstimmungsstatistiken trainiert werden, bieten eine potenzielle Lösung für dieses Problem, indem sie ansprechende Beiträge automatisiert auf Basis der dokumentierten Nutzermeinungen identifizieren. Frühere Forschungen in diesem Bereich haben sich in erster Linie auf die Verbesserung der Vorhersagegenauigkeit mithilfe von Deep-Learning-Ansätzen konzentriert, wobei der kritische Aspekt der Erklärbarkeit oft vernachlässigt wurde. Diese Studie untersucht eine Reihe von erklärbaren Methoden zur algorithmischen Identifizierung von wertvollen Benutzerbeiträgen im "One Million Posts"-Korpus, der von der Website der österreichischen Tageszeitung "DerStandard" stammt. Es werden erklärbare Features vorgestellt und erklärbare und interpretierbare Modelle evaluiert, wobei ihre Leistung mit Deep-Learning-Ansätzen verglichen wird. Die Ergebnisse zeigen, dass interpretierbare Modelle, die auf erklärbaren Merkmalen trainiert wurden, die gängigen Baselines in diesem Bereich übertreffen. Sie bleiben jedoch hinter der Vorhersagekraft von Deep-Learning-Ansätzen zurück. Trotz ihrer geringeren Vorhersagekraft bieten diese interpretierbaren Ansätze wertvolle Einblicke in die algorithmische Entscheidungsfindung und ihre potenziellen Fallstricke. Zusätzlich zu den Modellergebnissen wird in dieser Arbeit eine umfassende Analyse der Bedeutung der erklärbaren Merkmale vorgestellt und ein neuartiger Labeling-Ansatz für engagierte Beiträge vorgeschlagen, der sowohl für große als auch kleine Datensätze geeignet ist.

Discussions in newspaper comment sections significantly influence public opinion. The methods used to sort and display user posts impact these discussions and can propagate certain opinions. However, sorting is often partially done by forum moderators, which is time-consuming and prone to bias. Machine learning models trained on user voting statistics offer a potential solution by automatically identifying engaging posts based on the documented opinion of the community. Prior research in this domain has primarily focused on improving predictive accuracy using deep learning approaches, often neglecting the critical aspect of explainability. This study explores a range of explainable methods to algorithmically identify valuable user posts in the "One Million Posts" corpus, sourced from Austrian newspaper forum "DerStandard". It introduces explainable features and evaluates explainable and interpretable models, comparing their performance against deep learning approaches. Results show that interpretable models trained on explainable features outperform popular baselines in this domain. However, they fall short of the predictive power of deep learning approaches. Despite their lower predictive power, these interpretable approaches provide valuable insights into algorithmic decision-making and its potential pitfalls. In addition to the model results, this work presents a comprehensive analysis of the importance of the explainable features and proposes a novel labeling approach for engaging posts designed to accommodate both small and large datasets.

License:

In Copyright

Appears in Collections:

Thesis