Mullatahiri, P. (2024). Detecting depression and anxiety on social media using selective masking [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.107269
Mental Health; Social Media; NLP; Domain-Specific Pre-Training; Selective Masking
en
Abstract:
Psychische Gesundheitsprobleme sind eine der größten globalen Herausforderungen. Es wird geschätzt, dass mindestens jeder vierte Mensch einmal in seinem Leben von einer psychischen Störung betroffen ist. Depressionen sind dabei die häufigste Erkrankung, an der 5\% der Erwachsenen im Laufe ihres Lebens leiden. Die Nutzung sozialer Medien hat in den letzten zehn Jahren stark zugenommen und stellt daher eine vielversprechende Datenquelle für die Schätzung psychischer Erkrankungen auf Bevölkerungsebene dar.Unser Ziel war es, ein Modell zu entwickeln, das während des Domain-Specific Pre-Training (DSPT) eine selektive Maskierung anwendet, indem Wörter, die direkt mit Depression und Angst assoziiert sind, mit einer höheren Wahrscheinlichkeit maskiert werden. Dieser Ansatz ermöglichte es dem Modell, die charakteristischen Muster dieser Zustände besser zu erkennen.Nach der Extraktion der Daten aus den verschiedenen Subreddits wurden die Daten mit Hilfe von Annotationen in Angst-, Depressions- und Zufallsklassen eingeteilt. Die Zufallsklasse umfasste Daten aus 16 verschiedenen Subreddits, einschließlich der beliebtesten. Wir sammelten Twitter-Daten, indem wir nach Tweets suchten, die öffentlich über Depression oder Angst berichteten, und ordneten sie den Klassen Angst oder Depression zu. Die Daten für die Zufallsklasse wurden aus den Archiven des Complexity Science Hub Vienna gewonnen. Für die Daten aus Reddit und Twitter wurden verschiedene Vorverarbeitungsschritte zur Qualitätssicherung durchgeführt.Wir haben verschiedene Strategien implementiert, um die wichtigsten Wörter und ihre zugehörigen Maskierungswahrscheinlichkeiten für die selektive Maskierung während der DSPT zu identifizieren. Diese Strategien umfassten überwachtes Lernen, Clustering, Log-Odds, Term Frequency-Inverse Document Frequency (TF-IDF) und manuell ausgewählte Wörter. Die Modelle wurden mit Daten aus Reddit trainiert. In der Feinabstimmungsphase haben wir Daten von Reddit für das Training und Daten von Twitter für die Evaluierung verwendet, was uns geholfen hat, ein Modell zu entwickeln, das gut auf Daten von verschiedenen Social Media Plattformen verallgemeinert werden kann.Wir kamen zu dem Schluss, dass die selektive Maskierung von Wörtern, die direkt mit Depression oder Angst in Verbindung gebracht werden, besonders effektiv ist, um das Auftreten falsch negativer Ergebnisse zu minimieren. Angesichts unseres Ziels, ein Modell mit einer minimalen Anzahl von falsch-positiven und einer geringen Anzahl von falsch-negativen Ergebnissen zu entwickeln, verwendeten wir den F1-Score zur Bewertung. XGBoost- und Clustering-Strategien erwiesen sich als die leistungsfähigsten Strategien für die selektive Maskierung und zeigten nicht nur gute Ergebnisse, sondern auch Stabilität. Der höchste erreichte F1-Score betrug 0,8137 für Depression und 0,9236 für Angst und übertraf damit die Basismodelle mit Werten von 0,7504 für Depression und 0,8965 für Angst.Angesichts des Black-Box-Charakters und der eingeschränkten Interpretierbarkeit aktueller Modelle haben wir die Transparenz und Interpretierbarkeit durch die Integration globaler und lokaler Erklärungstechniken wie Local Interpretable Model-agnostic Explanations (LIME) und Shapley Additive Explanations (SHAP) verbessert. Unsere Ergebnisse deuten darauf hin, dass Wörter wie Pronomen der ersten Person, Schimpfwörter und Wörter, die mit dem Ausdruck von Emotionen assoziiert werden, signifikant zu positiven Vorhersagen beitragen. Zusammenfassend lässt sich sagen, dass wir ein Modell entwickelt haben, das sich gut auf Daten von verschiedenen Social Media Plattformen verallgemeinern lässt, verbesserte Ergebnisse liefert und mehr Transparenz bietet.
de
Mental health problems are one of the major problems in the world. It is estimated that once in their life, at least one mental health condition will affect one in four people. Depression is the most common condition, with 5\% of adults suffering from it in their lifetime. The use of social media has grown significantly in the last decade, making social media a promising source of data to estimate mental health conditions at the population level. We aimed at developing a model that employed selective masking during Domain-Specific Pre-Training (DSPT), where words directly linked to depression and anxiety were given a higher probability of getting masked. This approach enabled the model to better understand the distinctive pattern characteristics of these conditions.After extracting the data from various subreddits on Reddit, we applied annotations to classify the data into anxiety, depression, or random classes. The random class incorporated data from 16 subreddits, including the most popular ones. We collected Twitter data by searching for tweets featuring public self-disclosure of depression or anxiety diagnoses. These tweets were annotated under the anxiety or depression class. Random class data were compiled from Complexity Science Hub Vienna archives. We implemented various pre-processing steps for Reddit and Twitter to ensure data quality.We employed various strategies to identify the most meaningful words and their associated masking probabilities for selective masking, used during DSPT. These strategies were supervised learning models, clustering, log-odds, Term Frequency-Inverse Document Frequency (TF-IDF), and manually selected words. We trained the models using data from Reddit. Furthermore, during the fine-tuning phase, we used Reddit data for training and Twitter data for evaluating, contributing to developing a model which generalized well on data from different social media platforms.We concluded that selective masking of words directly linked with depression or anxiety proved particularly effective in minimizing the occurrence of false negatives. Given our interest in developing a model with minimal false positives, as well as a small number of false negatives, we used the f1-score for evaluation.XGBoost and clustering strategies emerged as the best-performing strategies for selective masking, demonstrating not only good results but also stability. The highest achieved f1-score for the depression domain was 0.8137, and for the anxiety domain, 0.9236, surpassing baseline model scores of 0.7504 for the depression domain and 0.8965 for the anxiety domain.Given state-of-the-art models' black-box nature and limited interpretability, we enhanced transparency and interpretability by incorporating global and local explainability techniques such as Local Interpretable Model-agnostic Explanations (LIME) and Shapley Additive Explanations (SHAP) . Our findings suggested that words like first-person pronouns, curse words, and words related to expressing emotions significantly contributed to positive predictions.In summary, we developed a model that generalized well on data from different social media platforms, produced improved results, and had a higher transparency.