Böhm, F. (2018). Neuronale Netze und deren Verhalten bei unbalancierten Daten am Beispiel der Betrugserkennung in der KFZ-Versicherung [Diploma Thesis, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/79201
-
Number of Pages:
120
-
Abstract:
Problemstellung: Heutzutage handelt es sich bei Versicherungsbetrug um keine Seltenheit mehr, nach Schätzungen weisen rund 10% aller Versicherungsschäden betrügerischen Charakter auf. Aufgrund von höheren Prämien schadet allerdings jeder bislang unberechtigterweise geforderter Euro nicht nur dem Versicherungsunternehmen, sondern auch allen Versicherungsnehmern. Daher werden in dieser Arbeit statistische Modelle untersucht, um möglichst präzise Betrugswahrscheinlichkeiten für Schadensfälle in der KFZ-Kaskoversicherung zu erhalten. Durch diese Vorselektion der Versicherungsschäden wird anschließend eine zielgerichtete Ermittlung ermöglicht. Außerdem werden tatsächliche Betrugsfälle weitaus seltener erkannt als die geschätzten 10%. Daher weist der vorliegende Datensatz unbalancierte Klassen auf, welche einer zusätzlichen Behandlung bedürfen. Herangehensweise: Für die Analyse werden in dieser Arbeit neuronale Netze als Modelle zugrunde gelegt. Dazu werden zunächst einige theoretischen Aspekte näher gebracht, bevor auf die zahlreichen Facetten der so elementaren Hyperparameter-Optimierung eingegangen wird. Die neuronalen Netze werden bezüglich ihrer Performance außerdem mit einer logistischen Regression und Random Forests verglichen. Dazu werden für den Umgang mit den unbalancierten Klassen drei Sampling-Methoden in Betracht gezogen und zwei neue Gütemaße mit dem Matthews Correlation Coefficient und der Area Under ROC-Curve berücksichtigt. Ergebnisse: Während Random Forests verglichen mit neuronalen Netzen zwar wesentlich mehr "offensichtliche" Betrugsfälle erkennen können, weisen sie Probleme auf, falls nach vielen "potenziellen" Schäden, die auf Betrug zurückzuführen sind, gesucht wird. Des Weiteren korrespondieren neuronale Netze im Gegensatz zu einer logistischen Regression mit höheren Werten für die zuvor vorgestellten Gütemaße. Dadurch erweisen sich neuronale Netze als die beste Modellwahl zur Betrugserkennung. Fazit: Diese Arbeit vermittelt auf ausführliche Weise, wie zahlreich die Möglichkeiten der Anwendung neuronaler Netze sind. Auch wenn von der Klassifikation auf den verwendeten Datensatz aufgrund der geringen Erkennungsrate tatsächlicher Betrugsfälle keine Wunder erwartet werden dürfen, zeigen die neuronalen Netze dennoch auf, wie vielseitig sie einsetzbar sind und wie gut sie "herkömmliche" Schadensfälle von Betrugsfällen unterscheiden können.