Parapatics, P. (2009). Patent claim decomposition for improved information extraction [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-33260
E188 - Institut für Softwaretechnik und Interaktive Systeme
-
Datum (veröffentlicht):
2009
-
Umfang:
120
-
Keywords:
Patentansprüche; Information Extraction; Natural Language Processing; Patente; regelbasierter Ansatz
de
information extraction; patent claims; natural language processing; patents; claim decomposition
en
Abstract:
Die vorliegende Arbeit beschreibt eine regelbasierte Methode zur Zerlegung von englischsprachigen Patentansprüchen in kleinere Teile mit dem Ziel, eine Basis für weitere Textanalyseschritte zu schaffen und die Anwendbarkeit von existierenden Algorithmen zur Informationsextraktion zu vereinfachen, welche auf Grund des komplizierten sprachlichen Aufbaus von Patentansprüchen nur beschränkt für diese geeignet sind. Da Patentansprüche nach sehr genauen syntaktischen und semantischen Vorgaben verfasst werden müssen, enthalten sie eine Reihe von wiederkehrenden grammatikalischen Mustern, die mittels linguistischer Analyse gefunden und extrahiert werden können. Die extrahierten Teile werden in eine Baumstruktur gebracht und es wird ein Algorithmus vorgestellt, der diese Teile reorganisiert und graphisch darstellt, um die Lesbarkeit der Patentansprüche zu verbessern. Die Evaluierung der Methode zeigt, dass die Länge und Komplexität von Patentansprüchen durch die Anwendung der entwickelten Regeln stark reduziert werden kann und dass dadurch die Anwendbarkeit von existierenden Information Extraction Tools erleichtert wird.
de
Natural language processing algorithms and information extraction methods have proven to be valuable tools supporting humans in structuring, aggregating and managing large amounts of information, available as text, in several domains. Patent claims, although subject to a number of rigid constraints and therefore pressed into foreseeable structures, are written in a very domain-specific and almost artificial language common information extraction and retrieval methods tend to show poor performance on. This work presents a rule-based approach for decomposing patent claims into smaller parts for providing a basis for further analysis. As claims are drafted according to very precise syntactic and semantic rules, they contain a high number of reoccurring grammatical patterns. A set of rules based on linguistic analysis is used to identify and extract these patterns. The extracted claim parts are organized in a tree structure in order to retain the information on how they are related to each other. An algorithm is proposed for automatically reorganizing and then visualizing this tree structure for improving readability of claims. The evaluation of the method shows that rule-based patent claim decomposition is feasible and provides promising results in terms of reduction of length and complexity of patent claims.<br />It shows that the decomposition method can be used to ease the application and raise the performance of existing information extraction tools.