Schüller, M. (2022). Reasoning in financial knowledge graphs : Making Industry sectors accessible to AI [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2022.98942
industry sector similarity; industry similarity metrics; knowledge graphs; artificial intelligence; hostile company takeover prediction
en
Abstract:
Wirtschaftszweigsystematiken wie beispielsweise NACE sind eine bewährte Methode zur Klassifizierung wirtschaftlicher Aktivitäten. Sie werden vielfach in der Wirtschaftswissenschaft, im Finanz- und Bankenwesen und in anderen Bereichen zur Gruppierung von Unternehmen eingesetzt, die ähnliche Produkte und Dienstleistungen anbieten und in ähnlichen Märkten operieren. Die meisten Staaten und Wirtschaftszonen nutzen individuell entwickelte Systematiken und forcieren ihre Nutzung, weshalb Unternehmensregister und ähnliche Datensätze oftmals derartige Klassifizierungen enthalten. Da Wirtschaftszweigsystematiken jedoch üblicherweise als kategorische Codes strukturiert sind, sind sie für numerische Berechnungen und damit viele Anwendungsbereiche künstlicher Intelligenz ungeeignet. Das Potenzial der Branchenklassifizierungen, die viele der qualitativen Eigenschaften eines Unternehmens vereinen, wird dadurch nicht optimal ausgeschöpft. Beispielsweise könnten Behörden durch die Möglichkeit, feindliche Firmenübernahmen vorherzusagen, beim Schutz von Unternehmen mit hoher nationaler Relevanz unterstützt werden. Diese Anwendung umfasst Fragen wie "Welche der Tochtergesellschaften passt am wenigsten in ein gegebenes Unternehmenskonglomerat?", deren Beantwortung fortschrittliche und wissenschaftlich evaluierte Metriken erfordert. Derzeit gibt es keine etablierte, nicht-proprietäre Lösung, die diese große Lücke schließt. Die meisten bestehenden Ansätze sind zu vereinfachend und können daher die Nuancen zwischen Branchen nicht adäquat abbilden. Andere sind nicht wissenschaftlich fundiert und basieren auf Daten, die nicht öffentlich zugänglich sind, was ihre Bewertung erschwert. In dieser Diplomarbeit werden fünf neuartige Methoden zur Quantifizierung der Ähnlichkeit von Wirtschaftszweigen vorgestellt, um bestehende Klassifizierungen für künstliche Intelligenz zugänglich zu machen. Die resultierenden Metriken werden sowohl hinsichtlich ihrer statistischen Eigenschaften als auch im Vergleich zu menschlichen Urteilen bewertet. Um ihre Anwendbarkeit zu verdeutlichen, wird zusätzlich eine Fallstudie durchgeführt. Unsere Ergebnisse zeigen, dass die Validität und praktische Anwendbarkeit der vorgeschlagenen Metriken stark vom zugrunde liegenden Ansatz sowie der Qualität und Struktur der Eingabedaten abhängen. Insbesondere eine der Metriken erfüllt unsere Erwartungen an eine hochgradig valide und nützliche Ähnlichkeitsmetrik und schließt damit die oben genannte Lücke. Die Ergebnisse der Fallstudie untermauern das hohe Anwendungspotenzial unserer Lösung, da sie in der Lage ist, eine feindliche Firmenübernahme ausschließlich mithilfe der Branchenklassifizierung zu erkennen.
de
Industry taxonomies such as NACE have long been the method of choice for classifying economic activities. They are universally used in economics research, finance, banking, and other areas for grouping similar companies based on the products and services they offer and the markets they operate in. Most countries and economic zones have established their own scheme and enforce its use, which leads business register datasets to often include respective classifications. However, since industry classification systems are commonly structured as sets of categorical codes, they are mostly unfit to be used for numerical computations as is needed for various artificial intelligence tasks. This is unfortunate especially because the industry classification encapsulates many of the qualitative properties of a company, making it an ideal feature candidate for automated reasoning and machine learning. For example, being able to predict hostile company takeovers supports public authorities in protecting essential enterprises that are of high national relevance. This application involves questions like "Which of its subsidiaries fits the least into a given company conglomerate?", which require advanced metrics based on a scientifically verified approach. Currently, there is no established, non-proprietary solution that closes this large gap. Most existing approaches are too simplistic and thus fail to convey nuances between industries. Others are non-academic and based on data not available to the public, which makes them difficult to evaluate. In this thesis, we propose five novel ways of quantifying the similarity between industry sectors so that existing classifications are made accessible to artificial intelligence. The resulting metrics are evaluated both with regards to their statistical properties as well as how they compare to human judgements. Additionally, we conduct a case study in order to exemplify and validate their applicability. Our results show that the validity and practical applicability of the proposed metrics strongly depend on the underlying approach as well as the quality and structure of the input data. One of the metrics in particular outperforms all others and meets our expectations of a highly valid and usable industry similarity metric, which indeed closes the aforementioned gap. Assessing the case study revealed the high potential of our solution for practical applications, as it is able to detect a hostile company takeover with no information about the involved companies except for their respective industries.