Giurginca, A.-I. (2012). Financial news classification using multilingual text categorization and ontology based text mining [Diploma Thesis, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/160568
Kategorisierung Klassifizierung Ontology Text Mining
de
Classification multilingual Categorization Ontology Text Mining
en
Abstract:
Diese Arbeit beschäftigt sich mit der Kategorisierung der online Finanznachrichten, nach zuvor fest definierten Kategorien. Die online Dokumente sollten automatisch zu einer Kategorie zugeordnet werden.<br />Verschiedene Text-Mining Methoden werden innerhalb einer Webanwendung zu Klassifizierung von online Nachrichten verwendet, um schnelle Entdeckung von wichtigen Informationen zu erleichtern. Die experimentelle Forschung betrifft das Gebiet der mehrsprachigen Text Mining Kategorisierung.<br />Darüber hinaus wurde die Eignung von Domain spezifische Ontologien zur Anreicherung der klassischen Text-Mining Techniken untersucht. In diesem speziellen Forschungsgebiet hat sich der Einsatz von zusätzlichen Konzepten aus fachspezifischen Ontologien als eine mögliche Optimierungsmethode erwiesen.<br />Als Ergebnis der experimentellen Forschung, wurde die beste Treffergenauigkeit unter der Verwendung der Support Vector Machine (SVM) Methode erreicht. Darüber hinaus haben auch die verwendete Weka-Naive Bayes (NB) Klassifikationsverfahren gute Ergebnisse erzielt. Die höchste Trefferwahrscheinlichkeit unter Verwendung der Rapid Miner SVM Methode lag bei über 83 % in allen drei untersuchten Sprachen. Die Weka Klassifizierung erzielte eine hohe Präzision von über 80%. Die Naive Bayes Klassifizierung erreichte die kleinste Genauigkeit von weniger als 50% in der englischen Sprache. Die automatische Übersetzung der Nachrichten hat gute Ergebnisse im Bezug auf die mehrsprachigen Aspekte geliefert. Die verwendete Domain spezifische Ontologie hat nicht wie erwartet zu einer Verbesserung der Trefferwahrscheinlichkeit geführt.<br />
de
This thesis deals with the categorization of business economics online news, according to previously defined categories. Documents should be assigned to one category. Ontology based and multilingual text mining classification methods are used within a Web application to facilitate fast discovery of information.<br />Experimental research has been conducted in the field of multilingual text categorization. Considering multilingual aspects allows the combination of information from different countries in several languages.<br />Furthermore the suitability of enriching text mining classification techniques with context ontology or thesauri concepts has been examined.<br />In this particular research area, the use of additional concepts from specific domain ontology by including a text mining feature selection process has been examined with respect to classification accuracy.<br />As a result, the best classification performance and accuracy was achieved using the Support Vector Machine (SVM) method. The Weka-naive Bayes (NB) classification method also achieved good performance. The highest accuracy was attained using SVM classification to over 83% in the three chosen languages. The Weka operator obtains a high precision to over 80% with a very fast execution runtime. Rapid Miner - NB classification operator has the lowest accuracy, less than 50% in the English language.<br />Automatic linguistic translation has delivered good results in respect of using the English classifier for multilingual aspects. The used domain-specific ontology has not made improvements in the performance of the classification method.