Durch das Lösen von Aufgaben, die menschenähnliche Intelligenz erfordern, haben Large Language Models (LLMs) viel Aufmerksamkeit erlangt. Sie haben damit auch ein enormes Potenzial, Rechtsexperten bei vieler ihrer Aufgaben zu unterstützen. Allerdings gibt es einen kritischen Aspekt, der dies bislang verhindert, nämlich Halluzination. Sie bezeichnet überzeugend formulierte Aussagen, die allerdings ohne faktische Basis sind. Hinzu kommt, dass Lösungen von LLMs oft nicht nachvollziehbar sind. Diese zwei Herausforderungen stellen die zugrundeliegenden Motive dieser Arbeit dar, die danach strebt, halluzinierte Konsequenzen zu vermeiden, die in generierten Lösungen einer rechtlichen Multi-Hop-Reasoning-Aufgabe enthalten sind. Während der Evaluierung wenden wir diese Aufgabe auf Rechtsverträge an. Mit Chain-of-Regulation stellen wir eine neue Methode zur Vermeidung von Halluzination vor, die Decomposed Prompting (DecomP) mit dem Verbessern von Zwischenergebnissen kombiniert. Konkret wird die Reasoning-Aufgabe in eine Reihe von Unteraufgaben modularisiert, wodurch deren Zwischenergebnisse offengelegt werden. Während diese von DecomP einfach an die folgenden Unteraufgaben weitergegeben werden, erkennen wir in der Offenlegung der Zwischenergebnisse ein hohes Potenzial, da damit die Anwendung von Self-Refinement-Methoden auf zwischenzeitliche Ergebnisse während des gesamten Lösungsvorganges ermöglicht wird. Die Evaluierung dieser Methode basiert auf einer präzisen Definition von Halluzination, um diese in unserer referenzfreien Umgebung detektieren zu können. Wir verwenden Chain-of-Thought als primäre Vergleichsbasis. Zusammengefasst liefert diese Arbeit drei zentrale Beiträge: (1) Mit Chain-of-Regulation stellen wir eine neue Methode vor, um Halluzinationen zu reduzieren. (2) Wir entwickeln eine Komponente, die Halluzinationen im Kontext der Multi-Hop-Reasoning-Aufgabe erkennt. (3) Wir verwenden Reasoning-Bäume, die den Reasoning-Prozess eines Modells visualisieren, um die Nachvollziehbarkeit der Antworten zu verbessern und die Entwicklung von Halluzination besser zu verstehen. Unser wichtigstes Ergebnis ist, dass im Kontext der rechtlichen Multi-Hop-Reasoning-Aufgabe Chain-of-Regulation fast dreimal effektiver als Chain-of-Thought ist und nur zu einem moderaten Anstieg der verwendeten Ressourcen führt.
de
Large Language Models (LLMs) have gained immense popularity for their ability to solve tasks that require near-human intelligence. Hence, they also have enormous potential to assist experts in various tasks within the legal domain. However, there is a significant reason that currently prevents this, namely, hallucination, which refers to reasonable-sounding statements lacking a factual basis. Furthermore, hallucination is usually accompanied by a lack of explainability of LLM responses. These two challenges motivate this thesis, which aims to mitigate hallucinated consequences contained in solutions to a multi-hop legal reasoning task. During evaluation, we apply this task to a set of legal contracts. We propose a novel hallucination mitigation technique, Chain-of-Regulation, which combines Decomposed Prompting (DecomP) with the refinement of intermediate results. Specifically, the reasoning task is decomposed into a sequence of subtasks, thereby exposing subtask results. While they are transferred to the following subtasks by DecomP, we identify the exposure of intermediate subtask results as an excellent opportunity to improve them by applying self-refinement strategies during the whole reasoning process. To evaluate our approach, we employ a concise definition of hallucinations that enables us to detect them in a reference-free setting. We use Chain-of-Thought as the main baseline. In summary, our work makes three key contributions: (1) With Chain-of-Regulation, we propose a new hallucination mitigation technique. (2) We develop a hallucination verification component to identify hallucinated facts in the context of multi-hop reasoning. (3) We use reasoning trees, which are a visualization of the model's reasoning process, to enhance response explainability and to understand the development of hallucination better. The key finding is that in the context of the multi-hop legal reasoning task, Chain-of-Regulation is almost three times as effective as Chain-of-Thought in mitigating hallucination, with only a moderate increase in resources.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers