Heigl, T. (2008). Information retrieval in the legal domain [Diploma Thesis, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/178382
E188 - Institut für Softwaretechnik und Interaktive Systeme
-
Date (published):
2008
-
Number of Pages:
114
-
Keywords:
Information retrieval; XML retrieval; Juristische Informationssysteme; Rechtsdatenbanken
de
Information retrieval; XML retrieval; Legal information systems; Legal databases
en
Abstract:
Information Retrieval (IR) bzw. Informationswiedergewinnung ist ein relativ altes und etabliertes Fachgebiet der Informatik, dessen Wurzeln bis in die 1950er zurückreichen. Bis vor kurzem lag das Hauptaugenmerk von IR auf der Wiedergewinnung von Information aus unstrukturiertem Text. Heutzutage werden jedoch immer mehr Dokumente im Internet, in digitalen Bibliotheken und in Intranets in strukturierter Form zur Verfügung gestellt. Die strukturierten Aspekte der Dokumente werden dabei mit Auszeichnungssprachen wie der eXtensible Markup Language (XML) dargestellt. Dieses explizite strukturelle Wissen kann von speziell adaptierten IR-Systemen dazu genutzt werden, präzisere und schärfere Suchergebnisse zu liefern. Die Entwicklung derartiger Systeme birgt allerdings eine Reihe neuer Herausforderungen. Im juristischen Bereich spielen strukturierte Information und deren Wiedergewinnung eine zentrale Rolle. Die effiziente Handhabung der Information wird durch die enorme und ständig wachsende Menge an verfügbarem juristischem Material zunehmend erschwert. Viele Autoren sprechen in dieser Hinsicht von Informationsüberladung und der Informationskrise des Rechts. Es ist daher wenig verwunderlich, dass der juristische Bereich eines der ersten Anwendungsgebiete von IR-Techniken war. Im Laufe der Jahre scheiterten allerdings viele Ansätze für juristische Informationssysteme, weil die Bedürfnisse und die Arbeitsweise von Juristen ignoriert, und die Entwicklung der Systeme primär als technische Herausforderung gesehen wurde. Ein Verständnis des juristischen Bereichs und seiner speziellen Anforderungen ist folglich erforderlich, um erfolgreiche Rechtsinformationssysteme zu entwickeln. Die vorliegende Arbeit führt zunächst in die Grundlagen des Information Retrieval als Fachbereich der Informatik ein. Daraufhin wird analysiert, wie strukturelles Wissen von speziell angepassten IR-Systemen genützt werden kann, und welche neuen Herausforderungen mit der Wiedergewinnung aus strukturierten Dokumenten, insbesondere XML-Dokumenten, verbunden sind. Auf dieser Grundlage werden die Besonderheiten des juristischen Bereichs unter die Lupe genommen und untersucht, inwiefern diese die Konzeption von IR-Systemen beeinflussen. Die dabei gewonnenen Einsichten werden schließlich verwendet, um zu einer Reihe konkreter Empfehlungen für den Entwurf juristischer Informationssysteme zu gelangen. Letztendlich werden das Design und die Implementierung eines prototypischen IR-Systems für den juristischen Bereich beschrieben, das vom Autor basierend auf quelloffenen Technologien entwickelt wurde.
The field of information retrieval (IR) is a relatively old and well established discipline within computer science that has been around since the 1950s. Until recently, its main focus has been on the retrieval of unstructured text. Today, more and more documents on the web, in digital libraries, and in intranets are available in structured form, marked up with languages such as the eXtensible Markup Language (XML). The explicit structural knowledge provided by markup can be leveraged by adapted retrieval systems to provide more precise and focused results. The implementation of such systems, however, comes with its very own challenges. In the legal domain, structured textual information and its accessibility play a critical role. The amount of available legal material is vast and continuously growing, making it more and more difficult to deal with it in an efficient manner. Authors frequently speak of information overload and the information crisis of law. It therefore is not surprising that the legal domain was one of the first fields where IR techniques were employed. Over the years, however, many legal information systems failed to gain acceptance because they ignored the needs and culture of the legal profession and treated the field primarily as a technical challenge. An understanding of the legal domain and its particular requirements is thus necessary to design successful legal information systems. This thesis first introduces the fundamentals of information retrieval as a discipline within the field computer science. Subsequently, it analyzes how structural knowledge can be leveraged by adapted retrieval systems and examines the challenges associated with the retrieval of structured documents, particularly those marked up in XML. On this groundwork, the thesis identifies particularities of the legal domain and examines how they influence the design and construction of retrieval systems. Based on this examination, recommendations for the design of legal IR systems are developed. Finally, the thesis discusses the design and implementation of a prototypical information retrieval system for the legal domain, based exclusively on open source technologies.