Fink, T. (2018). Improving multi word term detection in the patent domain with deep learning [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2018.40265
E188 - Institut für Softwaretechnik und Interaktive Systeme
-
Date (published):
2018
-
Number of Pages:
69
-
Keywords:
Natural language processing; patent text mining
en
Abstract:
Im Bereich der Patentsuche spielen technische Begriffe eine wichtige Rolle, wenn es darum geht herauszufinden, welche Patentdokumente einem bestimmten Patentdokument am ähnlichsten sind. Im Englischen bestehen technische Begriffe zumeist aus mehreren Wörtern und formen weiters Substanivgruppen (noun phrases). Letzteres wird von Methoden, die solche Mehrwortbegriffe (multi word terms) erkennen sollen, genutzt. Da aber Patenttexte sich oftmals durch eine Schreibstil kennzeichnen, der von anderen englischen Texten abweicht und Sätze sehr lang werden können, sind übliche Methoden zur Erkennung von linguistischen Informationen weniger effektiv. Weiters werden manche Mehrwortbegriffe eher selten in Patenten verwendet, was Methoden, die die Erkennung von Substantivgruppen sowie Information über die Vorkommenshäufigkeit der Begriffe benötigen, nicht unproblematisch macht. In dieser Arbeit präsentieren wir eine Methode zur Erkennung von Mehrwortbegriffen jeglicher Vorkommenshäufigkeit, die nicht die vorherige Erkennung von Substantivgruppen benötigt. Mithilfe von überwachtem maschinellem Lernen und einem künstlichen neuronalen Netz, das durch Methoden der Eigennamenerkennung (named entity recognition) und Schlüsselphrasenerkennung inspiriert wurde, trainieren wir Modelle auf Sätzen von 22 Patenten, deren Mehrwortbegriffe beschriftet wurden, bestehend aus Wort-Tokens und Buchstaben-Tokens. Durch Verwendung von 'word embeddings', die mit dem CLEF-IP Patentdatensatz erstellt wurden, erreicht unser bestes Modell eine höhere Leistung als unser bestes, auf linguistischen Informationen basierendes Richtlinienmodell, im Bezug auf Genauigkeit (von 0.70 auf 0.85), Trefferquote (von 0.74 auf 0.84) und F-Maß (von 0.72 auf 0.84).
de
In patent document information retrieval, the technical terms that are used in a particular patent document are an important factor in determining what the most relevant related documents are. In English, technical terms often consist of multiple words. Further, the fact that they are mostly noun phrases (NP) is utilized by methods detecting such multi word terms (MWT). However, due to the special nature of the patent domain, such as a special writing style and high maximum sentence length, common methods for extracting linguistic information are less effective. Further, some MWTs can occur very infrequently in patents, which makes the use of methods relying on NP extraction and frequency based information problematic. In this thesis we present a method for detecting even rare MWTs in patent texts that does not require the prior detection of NPs. Using supervised machine learning and an artificial neural network inspired by named entity extraction and keyphrase detection methods, we train models on sentences with annotated MWTs from 22 patents consisting of word tokens and character tokens. With the help of word embeddings trained on the CLEF-IP patent dataset, our best model outperforms our best linguistic baseline with regards to precision (from 0.70 to 0.85), recall (from 0.74 to 0.84) and F1 score (from 0.72 to 0.84).