Quantitative analysis of tourism data using text mining

Glatzer, Lisa

doi:10.34726/hss.2017.29622

Record link:

https://doi.org/10.34726/hss.2017.29622
http://hdl.handle.net/20.500.12708/6311

Title:

Quantitative analysis of tourism data using text mining

Citation:

Glatzer, L. (2017). Quantitative analysis of tourism data using text mining [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2017.29622

reposiTUm DOI:

10.34726/hss.2017.29622

CatalogPlus:

AC14460535

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Glatzer, Lisa

Advisor:

Werthner, Hannes

Co-advisor:

Neidhardt, Julia

Organisational Unit:

E188 - Institut für Softwaretechnik und Interaktive Systeme

Date (published):

2017

Number of Pages:

Keywords:

tourism data; text mining; classification

Abstract:

Heutzutage nutzen immer mehr Personen Online-Buchungs-Portale, um ihren Urlaub zu planen. Daher verwenden viele Anbieter bereits automatisierte Mechanismen, so genannte Recommender Systeme, um ihren Kunden das passendste Hotel vorzuschlagen. In dieser Masterarbeit werden unterschiedliche Ansätze untersucht, welche es ermöglichen sollen, automatisierte Empfehlungen mittels Hotelbeschreibungen verschiedener Anbieter zu erstellen. Basierend auf ihren textuellen Beschreibungen werden Hotels bis zu sieben vordefinierten Benutzerprofilen zugewiesen, welche zentrale Charakterisika und Eigenschaften von Touristen wiederspiegeln. Um das zu erzielen, werden veschiedene Methoden des Natural Language Processing, darunter Tokenization, Stemming und Pruning eingesetzt. Weiters werden drei unterschiedliche Ansätze für die Zuweisung der Hotels zu den Touristenprofilen umgesetzt: Clustering, Klassifizierung sowie ein Wörterbuch-basierter Ansatz, bei dem Experten Keywords für die einzelnen Profile auswählen. Die Ergebnisse aller drei Vorgehensweisen werden vorgestellt und verglichen, wobei der beste Ansatz mit einem unabhängigen Testdatensatz final evaluiert wird. Die Resultate des Clusterings zeigen, dass ein rein automatisierter Algorithmus ohne manuelle Unterstützung für die Zuordnung von Hotels zu Profilen nicht geeignet ist. Stattdessen werden die Textbeschreibungen nach Anbieter in Cluster unterteilt. Die Methode Klassifizierung liefert die besten Ergebnisse für sechs der sieben Profile, während der Wörterbuch-Ansatz sich für ein Profil als geeignetste Lösung herausstellt. Grundsätzlich ist zwischen den Endresultaten der einzelnen Profile eine große Varianz zu erkennen. Dies ist einerseits auf die ungleiche Verteilung des Test-Datensatzes zurückzuführen. Andererseits haben die Charakteristika der einzelnen Profile signifikanten Einfluss auf die Ergebnisse. Die in dieser Arbeit vorgestellten Modelle dienen der Erstellung von Recommender Systemen auf Basis von Hotelbeschreibungen.

The amount of people who use online booking platforms to select a travel accommodation has grown tremendously in the last years. Hence, many tour operator implement recommender systems in order to offer the most suitable hotels to their customers. In the context of this thesis, a method of using hotel descriptions collected by different tourist operators for recommendation is introduced. Based on the content of textual data samples, hotels are matched to seven predefined tourist roles ("The Seven Factors"), which represent general behaviours and preferences of tourists. To achieve this, a pre-processing of the unstructured hotel descriptions is done with different natural language processing methods including tokenizing, stemming and pruning. Further, three different approaches for the allocation of hotel descriptions to the tourist roles were implemented: unsupervised clustering, supervised classification and a dictionary-based approach, where keywords were identified by experts. The outcome of all three methods was compared and the best one was tested with an independent labelled data set of text description samples. The main results show that unsupervised clustering cannot be used to allocate hotels to tourist roles since the algorithm mostly relies on the operator-dependent structure which can be found in the descriptions. Further, it is identified that supervised classification achieves the highest precision for six of the seven tourist roles, whereas the dictionary approach is pointed out as the best solution for only one role. In general, the results for the different tourist roles vary due to the unequally distributed training and test data set as well as the various characteristics of the roles. The defined models are presented so that they can be used as an aid to design recommender systems based on hotel descriptions.

License:

In Copyright

Appears in Collections:

Thesis