Pango, H. (2025). Sentiment Analysis in e-Commerce: Developing a Model using Data Mining and Natural Language Processing [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.113062
E194 - Institut für Information Systems Engineering
-
Date (published):
2025
-
Number of Pages:
67
-
Keywords:
Sentiment Analysis; Natural Language Processing; AI; Data Mining; e-Commerce
en
Abstract:
In den letzten Jahren hat künstliche Intelligenz im schnell wachsenden und sich ständig verändernden Technologieumfeld für Schlagzeilen gesorgt und bahnbrechende Veränderungen in der Art und Weise bewirkt, wie Unternehmen weltweit agieren. Mit der Einführung der KI sind weitere Werkzeuge an die Oberfläche gekommen, wie etwa die Stimmungsanalyse und die Verarbeitung natürlicher Sprache. Obwohl diese Tools noch recht neu und unerforscht sind und durch die Tatsache, dass es in E-Commerce-Unternehmen große Mengen an Kundendaten gibt, noch verstärkt werden, haben sie einen erheblichen Einfluss darauf, wie sie funktionieren und aussagekräftige Erkenntnisse gewinnen können. Angesichts der Komplexität und der großen Menge der verfügbaren Daten sind wir anfällig für erhebliche und entscheidende Herausforderungen bei der Erstellung einer genauen Stimmungsanalyse, wie zum Beispiel: Umgang mit komplexer Sprache und Kontexten (Ironie und/oder Sarkasmus, bildliche Ausdrücke), Unterstützung mehrsprachiger und sprachenübergreifende SA, die Unternehmen die Möglichkeit gibt, benutzergenerierte Inhalte über verschiedene Sprachen und kulturelle Ansichten hinweg zu analysieren, oder aspektbasierte SA in Bezug auf bestimmte Merkmale von Produkten oder Dienstleistungen. Durch die Entwicklung eines robusten Analysemodells hat dieses Forschungspapier wichtige Schritte und Erkenntnisse zur Lösung dieser Herausforderungen erzielt und kann eine solide Grundlage für die weitere Arbeit und zukünftige Mitwirkende bieten.Die in dieser Arbeit verwendete Methodik nutzt fortschrittliche Techniken aus Deep-Learning-, NLP- und Data-Mining-Ansätzen und zielt darauf ab, modernste Architekturen wie Transformer-basierte Modelle (BERT und RoBERTa von HuggingFace) zu integrieren, um dies zu ermöglichen zur Analyse von Kontext und komplexen Sprachmustern, neuronaler maschineller Übersetzung (NMT) und Worteinbettung, um mehrsprachige und mehrsprachige SA im Detail zu analysieren und Sarkasmus/Ironie in den gegebenen Kundendaten zu erkennen. Für die aspektbasierte SA werden verschiedene Techniken integriert, wie zum Beispiel: Sequenzkennzeichnung und Aspekttermextraktion.Der Einsatz von Bewertungsmetriken ist von entscheidender Bedeutung, daher nutzen wir einige der Standardmetriken: F1-Score, Fläche unter der ROC-Kurve (AUC), Genauigkeit, Präzision, Erinnerung usw. Um die Leistung unseres Modells zu demonstrieren, vergleichen wir es dann mit verschiedenen Ansätzen in sich selbst und kommen dann zu dem Schluss, welche Techniken oder Methoden am besten geeignet oder darauf zugeschnitten sind.
de
In recent years, Artificial Intelligence has made headlines into the fast-growing and ever-changing environment of technology, making ground-breaking changes to how businesses operate worldwide. With the introduction of AI, there have been other tools that have emerged on the surface, such as Sentiment Analysis and Natural Language Processing. Although still quite new and unexplored, and reinforced by the fact that there is a large amount of customer data in e-Commerce businesses, these tools have made a significant impact on how they can operate and derive meaningful insights. Given the complexity and vast amount of the data available out there, we are prone to significant and crucial challenges for making accurate Sentiment Analysis, like: handling complex language and contexts (irony and/or sarcasm, figurative expressions), supporting multi-lingual and cross-lingual SA, which gives businesses the ability to analyze user-generated content across different languages and cultural views, or aspect-based SA towards specific features of products or services. By developing a robust analysis model, this research paper made significant steps and findings in solving these challenges, and can provide a solid foundation for further work and future contributors.Leveraging advanced techniques from deep learning, NLP and data mining approaches, the methodology used in this thesis aims to incorporate state-of-the-art architectures, such as Transformer-based models (BERT and RoBERTa by HuggingFace), in order to be able to analyze context and complex language patterns, Neural Machine Translation (NMT) and word embedding to further analyze in detail cross-lingual and multi-lingual SA, and detect sarcasm/irony in the given customer-data. For aspect-based SA, different techniques are incorporated, like: sequence labeling and aspect term extraction.Deploying evaluation metrics is key, so we make use of some of the standard metrics: F1-score, area under the ROC curve (AUC), accuracy, precision, recall etc. To showcase our model’s performance, we then compare it against different approaches within itself and then come to a conclusion on which techniques or methodologies are best suited or tailored to it.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers