Kern, T. (2011). Feature selection for patent classification based on entropy [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-43710
E188 - Institut für Softwaretechnik und Interaktive Systeme
-
Date (published):
2011
-
Number of Pages:
195
-
Keywords:
Feature Selection; Patente; Klassifizierung; Künstliche Intelligenz; Support Vector Maschinen; Entropie
de
Abstract:
In dieser Studie wird ein Framework für die Auto-Klassifizierung von Patenten entwickelt. Besonderes Augenmerk wird auf einen Vergleich von einigen linearen Klassifizierungsalgorithmen wie etwa SVM und einem L2-regulierten linearen Klassifizierungsalgorithmus gelegt. Weiters wird eine Feature-Selektion vorgenommen um die benötigten Resourcen während des Trainings zu minimieren, ohne dabei die Precision bzw. den Recall zu verschlechtern.<br />Im Jahr 2010 hat Montemurro und Zanette eine Methode vorgestellt, mit der man wichtige Wörter in einem Text erkennen kann. Auf dieser Methode aufbauend wurde eine Metrik und ein Algorithmus zur Feature-Selektion erstellt. Dieser Algorithmus kann die Anzahl der Features auf 4% reduzieren, ohne dabei die Klassifikationsperformance zu verringern.<br />
de
In this thesis I develop three feature selection algorithms for automatic classification of patents based on the International Patent Classification (IPC) categories. All three of them help reduce the number of features, the length of the training and the resources needed for the training, while improving the classification performance. The number of features is reduced to 4%. Furthermore I deliver a comparison between several linear classifiers including a Support Vector Machine (SVM) and an L2-regularized linear classifier.<br />In 2010 Montemurro and Zanette proposed a method to identify important words in a text. On this method a feature selection metric was built to distinguish between valuable and negative features. Furthermore three new filter selection algorithms based on the new metric are proposed.
en
Additional information:
Abweichender Titel laut Übersetzung der Verfasserin/des Verfassers Zsfassung in dt. Sprache