Baginski, H. (2021). Automatic detection and classification of suicide-related content in English texts [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2021.83254
E194 - Institut für Information Systems Engineering
-
Date (published):
2021
-
Number of Pages:
97
-
Keywords:
Natural Language Processing; Deep Learning; BERT; Textklassifizierung; synthetische Daten
de
natural language processing; deep learning; BERT; text classification; synthetic data
en
Abstract:
Die Medienberichterstattung über Suizide hat wiederholt gezeigt, dass sie mit Suizidraten assoziiert ist. Die Auswirkungen der Suizidberichterstattung sind möglicherweise nicht nur auf schädliche Effekte beschränkt; Geschichten über die Bewältigung schwieriger Umstände haben schützende Effekte. Insbesondere ist die Aussetzung von Medienberichten über Todesfälle mit einem Anstieg der Suizide verbunden, was auf einen Werther-Effekt hindeutet. Die Untersuchung der Auswirkungen der Suizidberichterstattung erfordert die Klassifizierung verschiedener Merkmale von Medienartikeln, die schädliche oder negative Auswirkungen haben können, was sich als zeitintensiv und schwierig erweist. Die Verwendung von natürlicher Sprachverarbeitung für die Klassifizierung solcher Texte könnte diese umständliche Aufgabe erleichtern. Wir verwenden das bidirektionale Sprachmodell BERT und vergleichen seine Leistung mit TFIDF und Bag-of-Words.Wir zeigen, dass Deep Learning und synthetische Datengenerierung die Entwicklung einer Anwendung ermöglichen, die in der Lage ist, englische Texte zu verarbeiten und spezifische Merkmale von suizid bezogenen Inhalten zu erkennen. Wir beschreiben ein effektives Klassifikationsmodell, das es dem Benutzer ermöglicht, das vorhergesagte Label eines bestimmten Variablecodes für den gegebenen englischen Eingabetext abzurufen.Einfache binäre Klassifikationsaufgaben werden am besten durch ein fein abgestimmtes BERT-Modell gelöst und erreichen 85% − 95%F1, verglichen mit der menschlichen Leistung von F1human = 100%. Mittlere binäre Klassifizierungsaufgaben profitieren oftvon einer synthetischen Balancierung mit Leistungen um 75%−80%F1 (F1human ~ 80%).Schwierige binäre Klassifizierungs- und Mehrklassen-Klassifizierungsaufgaben profitieren immer von einer synthetischen Balancierung. Welche Balancierungsmethode am besten funktioniert, ist jedoch aufgabenspezifisch, und die Leistungen liegen jeweils zwischen F1 ~70% (F1human ~ 80%) und ~80% (F1human ~95%).Unsere Ergebnisse zeigen, dass bidirektionale Sprachmodelle unglaublich gut funktionieren.Verbesserungen scheinen jedoch hauptsächlich von größeren Modellen und mehr Daten zu kommen. Das synthetische Balancieren der Minderheitsklassen liefert mehr Trainingsdaten und verbessert die Fähigkeit des Modells, auf neue Texte zu generalisieren.Unsere Anwendung wird es den Forschern ermöglichen, die Auswirkungen verschiedener Merkmale von Texten über Suizid in großem Maßstab zu untersuchen und dabei helfen,die Richtlinien für die Berichterstattung zu verbessern und so effektiv zur Prävention von Selbstmorden beizutragen.
de
Media reporting on suicide has repeatedly been shown to be associated with suicide rates. The impact of suicide reporting may not be restricted to harmful effects; rather, stories of coping and recovery in adverse circumstances may have protective effects. Specifically, exposure to media reports about deaths is associated with increases in suicides, suggesting a Werther effect. In contrast, exposure to content describing stories of hope and coping is associated with a decrease in suicides, which has been labeled as the Papageno effect. Investigating the impacts of suicide reporting requires classifying various characteristics of media-items that may have harmful or negative effects, which proves time-intensive and challenging. Using natural language processing for the classification of such texts could facilitate this tedious task. We use the bidirectional language model BERT and compare its performance against TFIDF and Bag-of-words. We show that deep learning and synthetic data generation allow developing an application, which is capable of processing English texts and detecting specific characteristics of suicide-related content. We describe an effective classification model that enables the user to retrieve the predicted label of a specific variable code for the given English input text. Simple binary classification tasks are best solved by a fine-tuned BERT model trained on the original data, achieving 85% − 95%F1, compared to the human performance of F1human = 100%. Intermediate binary classification tasks often benefit from synthetically balancing the data, with performances around 75% − 80%F1 (F1human ~ 80%). Difficult binary classification and multi-class classification tasks always benefit from synthetically balancing the data. However, which balancing method works best is task-specific, and performances range between F1 ~70% (F1human ~ 80%) and ~ 80% (F1human ~95%), respectively. Our results show that pre-trained bidirectional language models work incredibly well. Yet, improvements seem to mostly come from bigger models and more data. Synthetically balancing the minority classes provides more training data and improves the model's ability to generalize to new inputs. However, limiting the amount of synthetic data is crucial, since performance appears to tail off when the balance is tipped too far in favor of the synthetic data. Our application will enable researchers to investigate the effect of different characteristics of texts about suicide at large scales and help improve reporting guidelines, therebyeffectively contributing to the prevention of suicides.
en
Additional information:
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers