Lipenko, V. (2021). Social Media user profiling for credit scoring: A Taxonomy of explainability techniques [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2021.90480
E194 - Institut für Information Systems Engineering
-
Date (published):
2021
-
Number of Pages:
165
-
Keywords:
Erklärbarkeitstechniken; Social Media User Profiling; Credit Scoring; Taxonomie
de
Explainability Techniques; Social Media User Profiling; Credit Scoring; Taxonomy
en
Abstract:
Die Schaffung inklusiver Finanzdienstleistungen, um insbesondere derzeit ausgeschlossenen Personengruppen den Zugang zu Verbraucherkrediten ermöglichen zu können, macht zusätzliche Informationsquellen zur Durchführung von Kreditwürdigkeitsprüfungen notwendig. Die umfassenden Daten über die Nutzer der mittlerweile weltweit verbreiteten Social Media-Plattformen sind somit jene Daten, die zu diesem Zweck verwendbar sein könnten. Eine der besonderen Herausforderungen besteht darin, die Erklärbarkeit der möglichen Ansätze von Social Media Profiling, die zwecks Credit Scoring eingesetzt werden könnten, sicherzustellen. Neueste Forschungsergebnisse haben dabei die unterschiedlichsten Erklärbarkeitstechniken für die Machine Learning Ansätze bereits aufgezeigt. Es fehlt jedoch an umfassender Zuordnung dieser Erklärbarkeitstechniken zu genau den Ansätzen, die potentiell die Komponenten der Credit Scoring Modelle aus Social Media Daten ableiten könnten. Ziel dieser Arbeit ist es daher, eine Taxonomie von Erklärbarkeitstechniken für Social Media Profiling Ansätze zu erstellen, die zwecks Credit Scoring eingesetzt werden könnten. Zur Erreichung dieses Ziels wurde die Methodologie zur Entwicklung von Taxonomien in Software Engineering befolgt. Die erste Phase umfasst die Planung der Taxonomie mit der Definition vom Kontext und der Angabe der Hauptaspekte der zu entwickelnden Taxonomie. In der zweiten Phase findet die Identifizierung von Begriffen der Taxonomie mithilfe des systematischen Literaturreviews statt. Die Erstellung der Taxonomie erfolgt in der dritten Phase durch die Kategorisierung der identifizierten Begriffe und die Feststellung der Beziehungen zwischen den Kategorien. Die Expertenbefragung ist in der abschließenden vierten Phase zur Validierung der Taxonomie eingesetzt. Das Ziel der Arbeit wurde erfolgreich erreicht. Die erstellte Taxonomie deckt 496 Komponenten der Credit Scoring Modelle, 574 Social Media Profiling Ansätze und 640 Erklärbarkeitstechniken ab. Auf der Ebene der Komponenten der Credit Scoring Modelle sind sowohl die gut erforschten (z.B. die Bonitätsgeschichte, die demografische Daten und das Beschäftigungsverhältnis) als auch sehr spezielle Kategorien (z.B. Look-a-likes und der potentielle Einfluss psychologischer Variablen) erfasst. Fast alle dieser Kategorien sind durch identifizierte Social Media Profiling Ansätze ableitbar. Die Ausnahmen sind nachvollziehbar. So benötigen die Attribute vom beantragten Kredit oder die Daten über die Geschäftsbeziehung zwischen Kreditgeber und Verbraucher beispielsweise keine zusätzliche Ableitung. Für die meisten Kategorien der Social Media Profiling Ansätze sind Erklärbarkeitstechniken verfügbar, bis auf Dimensionality Reduction, Social Semantic Web und Algorithmen aus der Graphentheorie, für die keine anwendbaren Erklärbarkeitstechniken identifiziert wurden. Die erstellte Taxonomie trägt zu einem besseren Verständnis der verfügbaren Erklärbarkeitstechniken für Ansätze bei, mit denen potenziell Komponenten der Credit Scoring Modelle aus Social Media Daten abgeleitet werden können. Die erstellte Taxonomie wurde erfolgreich validiert, indem die Expertenmeinung klassifiziert wurde.
de
The aim to enable more inclusive financial services, particularly to improve the access to consumer credits, leads to the discovery of additional sources of information to conduct credit scoring. At the same time, the recent expansion of social media, which contains valuable information from billions of people around the world, is tremendous. Thus, social media data is naturally a potential candidate to be part of a solution for improved consumer credit offering. Among different requirements around possible applications of social media user profiling approaches to derive credit scoring model components, one that is particularly challenging is to ensure the explainability of such approaches. On the one side, recent research contributed various explainability techniques to modern machine learning approaches. On the other side, there is a lack of concrete mapping between these explainability techniques and the social media user profiling approaches potentially capable of deriving credit scoring model components. Hence, the aim of this work is to construct a taxonomy of explainability techniques for social media user profiling approaches in credit scoring. To achieve this goal, the methodology for developing taxonomies in software engineering is followed. The first phase is the planning phase, with the specification of the context and the defining aspects of the taxonomy. Extraction of the relevant terms is performed in the second phase by systematic literature reviews. The third phase covers taxonomy design and construction through categorization of the identified terms and establishment of the relationships between them. Experts’ opinion survey is conducted for the validation of the developed taxonomy in the final fourth phase. The aim of the thesis has been successfully achieved. The constructed taxonomy covers 496 credit scoring model components, 574 social media user profiling approaches, and 640 explainability techniques. On the level of credit scoring model components well researched (such as credit history, demographic data, and employment status) and more specific categories (such as look-a-likes and potential influence of various psychological variables) are captured. Almost all of the categories of credit scoring model components are potentially derivable by the identified social media profiling approaches. The few exceptions are justified (e.g., data on bank-borrower relationship or attributes of credit applied for do not require to be explicitly derived). For almost all of the categories of social media user profiling approaches there are various explainability techniques available, with the exception of dimensionality reduction, graph theory algorithms, and social semantic web, for which no evidence of available explainability techniques found. The developed taxonomy contributes to improved understanding of currently available explainability techniques of user profiling approaches applicable to potentially derive credit scoring model components from social media data. The constructed taxonomy is successfully validated by classifying experts’ opinions.