Haberberger, N. (2019). Verknüpfung von internen Sensordaten mit externen Datenquellen und Analyse der generierten Verbindungen mithilfe von verteilten Systemen [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2019.61581
E194 - Institut für Information Systems Engineering
-
Date (published):
2019
-
Number of Pages:
90
-
Keywords:
big data; distributed systems; data integration; data augmentation; process improvement; sensor data; vehicles; external data sources
en
Abstract:
Unternehmen aller Branchen setzen heutzutage mehr denn je Big Data-Lösungen ein. Auch in der Automobilindustrie werden durch Sensoren in Fahrzeugen große Datenmengen erhoben, um diese anschließend gewinnbringend zu verwerten. Die Auswahl von geeigneten Datensätzen innerhalb dieser Datenmenge, erweist sich oft als schwierig, wenn relevante Informationen nicht enthalten sind. Inwieweit die Integration externer Datenquellen in den unternehmensinternen Datenpool nun dazu beitragen kann, diesen Auswahlprozess in den Dimensionen Zeit, Kosten, Qualität und Flexibilität zu verbessern, wurde in dieser Arbeit untersucht. Als erster Schritt wurde eine Recherche über verfügbare externe Datenquellen durchgeführt und deren Ergebnisse präsentiert. Mit Hilfe einer Nutzwertanalyse wurde die Auswahl der Datenquellen von Wetterund Kartendaten begründet, welche im Hinblick auf die definierten Anforderungen für die Datenintegration den größten Nutzen bieten. Anschließend wurde ein Ansatz für eine skalierbare und verteilte Implementierung dieser Datenquellen konzipiert und unter Verwendung des Apache Hadoop Frameworks integriert. Die Auswertung des daraus resultierenden verknüpften Datensatzes zeigt die Vorteile und Grenzen, sowie das weitere Verbesserungspotential des Ansatzes. Es kann unter anderem gezeigt werden, dass durch das Treffen von Annahmen bezüglich der Korrektheit der Verknüpfungen, Prozessschritte eliminiert und eine Verkürzung der Durchlaufzeit des Prozesses erzielt werden kann. Auf gleiche Weise können die variablen Kosten für die Ausführung des Prozesses gesenkt werden, während jedoch weitere Kosten für die Entwicklung und Instandhaltung der implementierten Software anfallen. Aspekte der Erhöhung der Analysequalität durch zusätzlich verfügbare Informationen, sowie eine höhere Flexibilität bezüglich der Skalierbarkeit bei höherer Arbeitslast werden argumentiert.
de
Today, more than ever, businesses of all industries are employing big data solutions. Also in the automotive industry, it is common to use sensors in vehicles to collect large amounts of data in order to extract business value. Selecting appropriate records within this data set often proves difficult, if the required information is not included. In the course of this thesis, the extent of which the integration of external data sources can help to improve the data selection process in the dimensions of time, cost, quality and flexibility was investigated. First, a research of available external data sources was conducted and their results were presented. A use-value analysis was used to justify the selection of weather and map data sources, since they provide the most value in terms of the defined requirements for data integration. Then, a scalable and distributed approach for implementing these data sources was designed and integrated using the Apache Hadoop Framework. The evaluation of the resulting linked data set shows the advantages and limitations, as well as further potential for improvement of the approach. It can be shown that by making assumptions about the correctness of the linkages, process steps can be eliminated and a reduction of the process' cycle time can be achieved. In the same way, the variable costs of executing the process can be reduced, yet still occasioning additional costs for the development and maintenance of the developed software. It is argued, that an increase in product quality due to additional information can be achieved, as well as an increase in flexibility in terms of handling higher workloads.