Romauch, M. (2009). Coreference resolution in clinical practice guidelines focusing on hypernym/hyponym relations [Diploma Thesis, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/186038
coreference relation; clinical practice guidelines; hypernym; hyponym relation; UMLS; MMTx
en
Abstract:
Medical knowledge is often only available in natural language text documents, which makes the automated processing of the information they contain a highly expensive, labour-intensive, and time-consuming task. Therefore, research efforts have been made to find ways of making selected medical documents processable for automated systems. That applies also for clinical practice guidelines (CPGs) since these documents represent the state-of-the-art knowledge in a certain medical field. The use of computerised CPGs can be beneficial in several ways, especially in patient-specific decision support, since they provide the possibility to automatically generate recommendations about what medical procedures to perform tailored to an individual patient.<br />The proper automated processing of information provided by CPGs relies heavily on the correct interpretation of a certain semantic proposition in natural language text, namely coreference relations. Coreference detection and resolution is an important task in natural language processing (NLP). Two or more terms in a text are coreferent if they refer to the same real-world entity. Authors often use this semantic structure in order to prevent word repetition. Its correct interpretation helps to understand what is going on in a discourse of text. There exist several different types of coreference in natural language text such as name-alias coreference, pronoun coreference, and definite description coreference.<br />In this thesis work we will especially deal with the latter one. After the presentation of the theoretical background of coreference resolution, including an outline of existing algorithms and systems, we introduce our coreference resolution approach for CPGs. The focus lies on the detection and resolution of hypernym/hyponym coreference relations, a special kind of definite description coreference, since they represent the most frequent type found in CPGs. A hypernym/hyponym coreference exists if a coreferent relation holds between a more general expression (hypernym) and a more specific expression (hyponym). In order to accomplish this task the resolution algorithm firstly determines all possible phrases and selects the relevant ones for further processing.<br />Secondly, we apply several tests that use information provided by external tools, namely MetaMap Transfer (MMTx) and the Unified Medical Language System (UMLS) in order to identify the candidates that can possibly be part of a coreference relation. Finally, a set of resolution rules is used to determine coreference relations that hold between the candidates. We developed an initial algorithm and implemented it prototypically in order to test and improve it. The resulting algorithm was then evaluated with the help of set of test documents. During this evaluation our coreference resolution algorithm achieved 84,96% in recall and 68,49% in precision.<br />
de
Medizinisches Wissen steht oft nur in Form von natürlichsprachigen Textdokumenten zur Verfügung. Dieser Umstand macht eine automatisierte Verarbeitung dieser Informationen zu einer extrem kostspieligen, arbeitsintensiven und zeitaufwändigen Tätigkeit. Aus diesem Grund wurden vielfach Anstrengungen mit dem Ziel unternommen, ausgewählte medizinische Dokumente automatisch verarbeitbar zu machen. Diese Anstrengungen gelten besonders für medizinische Leitlinien (engl.:<br />clinical practice guidelines (CPGs)), da diese Dokumente das aktuell gültige Wissen in einem bestimmten medizinischen Bereich repräsentieren.<br />Die Verwendung rechnergestützter CPGs bietet verschiedenste Vorteile, besonders im Bereich der patientenspezifischen Entscheidungsunterstützung. Mit ihrer Hilfe ist es möglich, individuelle, auf Patienten speziell zugeschnittene Behandlungsvorschläge automatisch zu erstellen.<br />Die korrekte automatisierte Verarbeitung der Informationen in den CPGs beruht unter anderem auf der richtigen Interpretation eines speziellen semantischen Theorems, der so genannten Koreferenzbeziehung. Die Erkennung und Auflösung dieser Struktur ist eine wichtige Teilaufgabe im Bereich des Natural Language Processing (NLP). Zwei oder mehrere Ausdrücke in einem Text sind koreferent, wenn sie auf dasselbe reale Objekt referenzieren. Diese semantische Struktur wird oft zur Verhinderung von Wortwiederholungen eingesetzt. Eine korrekte Interpretation hilft dabei, den Inhalt eines Textes zu verstehen. Es existieren verschiedene Arten von Koreferenz in natürlichsprachigen Texten, wie zB Name-alias Koreferenz, Pronomen-Koreferenz und Definite-Description Koreferenz.<br />Diese Arbeit fokussiert auf die Identifizierung des letzteren Typus.<br />Nach der Vorstellung des theoretischen Hintergrundes zum Thema Auflösung von Koreferenzbeziehungen, die auch einen Überblick über existierende Ansätze und Systeme beinhaltet, präsentiert diese Arbeit unseren Korefernzidentifizierungsalgorithmus für CPGs. Ein Hauptaugenmerk liegt auf der Erkennung und Auflösung von Definite Description Koreferenz, und dabei speziell auf hypernymen/hyponymen Korefernzbeziehungen. Diese stellen den in CPGs am häufigsten auftretenden Typ dar. Eine hypernyme/hyponyme Korefernz liegt dann vor, wenn eine Koreferenzbeziehung zwischen einem generelleren Ausdruck (Hypernym) und einem spezielleren Ausdruck (Hyponym) besteht. Um diese Aufgabe erfüllen zu können, identifiziert unser Algorithmus zuerst alle möglichen Phrasen und selektiert die relevanten für die weitere Verarbeitung. Im zweiten Schritt werden alle Kandidaten identifizieren, die möglicherweise Teile einer Korefernzbeziehung sind. Dazu verwenden wir verschiedene Tests die Informationen von externen Informationen, nämlich MetaMap Transfer (MMTx) und dem Unified Medical Language System (UMLS) beziehen.<br />Schließlich werden "Resolution Rules" eingesetzt um Koreferenzbeziehungen, die zwischen den Kandidaten existieren.<br />Wir entwickelten einen Algorithmus, den wir prototypisch implementierten um ihn in weiterer Folge anhand von Trainingsdokumenten zu verbessern.<br />Der endgültige Algorithmus wurde danach anhand von Testdokumenten evaluiert. Unser Algorithmus zur Identifizierung von Koreferenzen erreichte bei dieser Evaluierung Werte von 85,96% Vollständigkeit (Recall) und 68,49% Genauigkeit (Precision).