Title: Feature selection for patent classification based on entropy
Language: English
Authors: Kern, Thomas 
Qualification level: Diploma
Keywords: Feature Selection; Patente; Klassifizierung; Künstliche Intelligenz; Support Vector Maschinen; Entropie
Advisor: Hanbury, Allan 
Issue Date: 2011
Number of Pages: 195
Qualification level: Diploma
Abstract: 
In dieser Studie wird ein Framework für die Auto-Klassifizierung von Patenten entwickelt. Besonderes Augenmerk wird auf einen Vergleich von einigen linearen Klassifizierungsalgorithmen wie etwa SVM und einem L2-regulierten linearen Klassifizierungsalgorithmus gelegt. Weiters wird eine Feature-Selektion vorgenommen um die benötigten Resourcen während des Trainings zu minimieren, ohne dabei die Precision bzw. den Recall zu verschlechtern.
Im Jahr 2010 hat Montemurro und Zanette eine Methode vorgestellt, mit der man wichtige Wörter in einem Text erkennen kann. Auf dieser Methode aufbauend wurde eine Metrik und ein Algorithmus zur Feature-Selektion erstellt. Dieser Algorithmus kann die Anzahl der Features auf 4% reduzieren, ohne dabei die Klassifikationsperformance zu verringern.

In this thesis I develop three feature selection algorithms for automatic classification of patents based on the International Patent Classification (IPC) categories. All three of them help reduce the number of features, the length of the training and the resources needed for the training, while improving the classification performance. The number of features is reduced to 4%. Furthermore I deliver a comparison between several linear classifiers including a Support Vector Machine (SVM) and an L2-regularized linear classifier.
In 2010 Montemurro and Zanette proposed a method to identify important words in a text. On this method a feature selection metric was built to distinguish between valuable and negative features. Furthermore three new filter selection algorithms based on the new metric are proposed.
URI: https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-43710
http://hdl.handle.net/20.500.12708/9298
Library ID: AC07811411
Organisation: E188 - Institut für Softwaretechnik und Interaktive Systeme 
Publication Type: Thesis
Hochschulschrift
Appears in Collections:Thesis

Files in this item:

Show full item record

Page view(s)

10
checked on Feb 18, 2021

Download(s)

51
checked on Feb 18, 2021

Google ScholarTM

Check


Items in reposiTUm are protected by copyright, with all rights reserved, unless otherwise indicated.