Twitter ist aktuell eine der größten Social-Media-Plattformen. Seine Benutzerinnen und Benutzer können kurze Beiträge -- sogenannte Tweets -- teilen, lesen und mit ihnen interagieren. Für die ACM Recommender Systems Conference 2020 veröffentlichte Twitter einen rund 70 GB großen Datensatz für die jährliche RecSys Challenge. Im Jahr 2020 lud die RecSys Challenge teilnehmende Teams ein, Modelle zu erstellen, die die Wahrscheinlichkeit von Interaktionen für bestimmte Benutzer-Tweet-Kombinationen vorhersagen würden. Die eingereichten Modelle zur Vorhersage von Like-, Reply-, Retweet- und Quote-Interaktionen wurden anhand von zwei Metriken bewertet: die Fläche unter der Precision-Recall-Kurve (PRAUC) und die relative Kreuzentropie (RCE). In dieser Diplomarbeit haben wir den Datensatz und das Evaluationsverfahren der RecSys 2020 Challenge verwendet, um zu untersuchen, wie gut der Kontext allein zur Vorhersage der Wahrscheinlichkeit einer Tweet-Interaktion verwendet werden kann. Dabei haben wir die Spark-Engine auf dem Little Big Data Cluster der TU Wien eingesetzt, um skalierbare Pipelines für Datenvorverarbeitung, Feature Engineering, Feature Selection und maschinelles Lerner zu erstellen. Manuell haben wir knapp 200 zusätzliche Features gestaltet, um den Tweet-Kontext zu beschreiben. Die Ergebnisse zeigen, dass Features, die die bisherige Interaktionshistorie der Benutzerinnen und Benutzer und die Popularität von Hashtags und Links im Tweet beschreiben, am informativsten waren. Wir haben außerdem festgestellt, dass Faktoren wie der Vorhersagealgorithmus, die Größe des Trainingsdatensatzes, die Stichprobenmethode des Trainingsdatensatzes und die Feature Selection die Ergebnisse signifikant beeinflussen. Der Vergleich der besten Ergebnisse unserer rein kontextbasierten Vorhersagemodelle mit rein inhaltsbasierten Modellen und mit von den Challenge-Gewinnern erstellten Modellen zeigt, dass die kontextbasierten Modelle schlechtere RCE-Werte erzielt haben. Diese Arbeit schließt ab, indem sie diese Diskrepanz erwähnt und potenzielle Verbesserungen für unsere Implementierung, die in einem öffentlichen Git-Repository geteilt wird, vorschlägt.
de
Twitter is currently one of the biggest social media platforms. Its users may share, read, and engage with short posts called tweets. For the ACM Recommender Systems Conference 2020, Twitter published a dataset around 70 GB in size for the annual RecSys Challenge. In 2020, the RecSys Challenge invited participating teams to create models that would predict engagement likelihoods for given user-tweet combinations. The submitted models predicting like, reply, retweet, and quote engagements were evaluated based on two metrics: area under the precision-recall curve (PRAUC) and relative cross-entropy (RCE). In this diploma thesis, we used the RecSys 2020 Challenge dataset and evaluation procedure to investigate how well context alone may be used to predict tweet engagement likelihood. In doing so, we employed the Spark engine on TU Wien’s Little Big Data Cluster to create scalable data preprocessing, feature engineering, feature selection, and machine learning pipelines. We manually created just under 200 additional features to describe tweet context. The results indicate that features describing users’ prior engagement history and the popularity of hashtags and links in the tweet were the most informative. We also found that factors such as the prediction algorithm, training dataset size, training dataset sampling method, and feature selection significantly affect the results. After comparing the best results of our context-only prediction models with content-only models and with models developed by the Challenge winners, we identified that the context-based models underperformed in terms of the RCE score. This work thus concludes by situating this discrepancy and proposing potential improvements to our implementation, which is shared in a public git repository.