Die vorliegende Arbeit beschreibt eine regelbasierte Methode zur Zerlegung von englischsprachigen Patentansprüchen in kleinere Teile mit dem Ziel, eine Basis für weitere Textanalyseschritte zu schaffen und die Anwendbarkeit von existierenden Algorithmen zur Informationsextraktion zu vereinfachen, welche auf Grund des komplizierten sprachlichen Aufbaus von Patentansprüchen nur beschränkt für diese geeignet sind. Da Patentansprüche nach sehr genauen syntaktischen und semantischen Vorgaben verfasst werden müssen, enthalten sie eine Reihe von wiederkehrenden grammatikalischen Mustern, die mittels linguistischer Analyse gefunden und extrahiert werden können. Die extrahierten Teile werden in eine Baumstruktur gebracht und es wird ein Algorithmus vorgestellt, der diese Teile reorganisiert und graphisch darstellt, um die Lesbarkeit der Patentansprüche zu verbessern. Die Evaluierung der Methode zeigt, dass die Länge und Komplexität von Patentansprüchen durch die Anwendung der entwickelten Regeln stark reduziert werden kann und dass dadurch die Anwendbarkeit von existierenden Information Extraction Tools erleichtert wird.
de
dc.description.abstract
Natural language processing algorithms and information extraction methods have proven to be valuable tools supporting humans in structuring, aggregating and managing large amounts of information, available as text, in several domains. Patent claims, although subject to a number of rigid constraints and therefore pressed into foreseeable structures, are written in a very domain-specific and almost artificial language common information extraction and retrieval methods tend to show poor performance on. This work presents a rule-based approach for decomposing patent claims into smaller parts for providing a basis for further analysis. As claims are drafted according to very precise syntactic and semantic rules, they contain a high number of reoccurring grammatical patterns. A set of rules based on linguistic analysis is used to identify and extract these patterns. The extracted claim parts are organized in a tree structure in order to retain the information on how they are related to each other. An algorithm is proposed for automatically reorganizing and then visualizing this tree structure for improving readability of claims. The evaluation of the method shows that rule-based patent claim decomposition is feasible and provides promising results in terms of reduction of length and complexity of patent claims.<br />It shows that the decomposition method can be used to ease the application and raise the performance of existing information extraction tools.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Patentansprüche
de
dc.subject
Information Extraction
de
dc.subject
Natural Language Processing
de
dc.subject
Patente
de
dc.subject
regelbasierter Ansatz
de
dc.subject
information extraction
en
dc.subject
patent claims
en
dc.subject
natural language processing
en
dc.subject
patents
en
dc.subject
claim decomposition
en
dc.title
Patent claim decomposition for improved information extraction
en
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Peter Parapatics
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
tuw.publication.orgunit
E188 - Institut für Softwaretechnik und Interaktive Systeme