Milasus, E. (2024). Harmonization system for data analytics using microservices [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.121561
E194 - Institut für Information Systems Engineering
-
Date (published):
2024
-
Number of Pages:
83
-
Keywords:
Microservices Architektur; Big Data
de
Microservices Architecture; Big Data
en
Abstract:
Verschiedene Industrien, wie Telekommunikation, Gesundheitswesen, Verkauf, Bankwesen, Marketing, Bildung, Agrikultur, Produktentwicklung, Energie, Versicherung u.a. produzieren jede Sekunde große Datenmengen. Algorithmen und verschiedene Programme sind notwendig, um diese Daten zu verarbeiten. Neue Entwicklungen in dem IoT Bereich produzieren immer höher werdende Datenmengen. Zusätzlich dazu, erhöhen verschiedene Neugeräte den Datenfluss ständig. Da nicht nur diese Geräte, sondern auch die Quellen der generierten Daten sehr unterschiedlich sein können, sind auch die damit entstehenden Daten sehr divers. Oft verschärft sich dieses Problem in Ausnahmesituationen, wenn nicht saubere Daten Echtzeitanalysen verlangsamen oder gar verhindern. Datenharmonisierung der unterschiedlichen Datensätze ist eine Methode, mit der diese Herausforderungen bewältigt werden können, da diese die Vergleichbarkeit der Daten erhöht. Über die Jahre sind viele Lösungen der Datenharmonizierung entstanden, jede mit den eigenen Vorteilen, aber auch Einschränkungen und Herausforderungen. Die Schwierigkeiten der Datenharmonisierung mit diesen Methoden existieren aber größtenteils weiterhin, da aus der Literatur sehr viele Methoden eine monolitische Natur haben. Um diese Probleme zu bewältigen, stellt diese Arbeit eine Microservices Architektur vor, die die Sammlung von Daten und deren Preprocessing mithilfe von Datenharmonisierungsmethoden ermöglicht. Die vorgestellte Microservices Architektur zur Datenharmonisierung erlaubt es, Daten über APIs oder von Dateien zu importieren. Hiermit wird die Flexibilität der Datensammlung erhöht. Weiters zeigen wir mithilfe von Speicher- und Rechenzeitanalysen, dass unser Ansatz in verschiedenen Bereichen effizient und effektiv arbeitet. Damit die Vorteile aufgezeigt werden können, haben wir verschiedene Szenarien erstellt. Auf der einen Seite haben diese das Aufräumen von Datensätzen, wie z.B. das Löschen von doppelten oder leeren Einträgen, beinhaltet, auf der anderen, haben diese sowohl öffentliche als auch private Datensätze berücksichtigt. Wir zeigen, dass das Importieren der Daten aus Datenbanken besser als der Import aus Dateien ist. Mit dem Ansatz der automatisierten Datenharmonisierung wird nicht nur der manuelle Aufwand während der Datenverarbeitung reduziert und die Qualität der Daten verbessert, sondern auch die Kosten gesenkt und die Datenintegrität erhöht.
de
Real-world applications such as healthcare, telecommunications, retail, law enforcement, banking, marketing, education, agriculture, new product development, energy and utilities, insurance, and urban planning produce massive amounts of data every second, and tools and algorithms are key to assessing this data. Recent advances in RFID such as IoT and sensing devices are also contributing a vast amount of data, and the amount of devices are also increasing the data generation continuously. Due to the diversity of devices and data gathering sources, it is highly incongruent, heterogeneous, and fragmented. Often, these issues are exacerbated in emergency situations when unclean data stalls real-time analyses. Data harmonization of different datasets is an increasingly common method of overcoming these data challenges by maximizing comparability. Over the years, multiple solutions have been developed for data harmonization with their own limitations, challenges and advantages. However, data harmonization complexity still exists in these methods and it's highly complex due to the monolithic nature of the majority of the methods in the literature. To overcome these issues, this thesis introduces a microservices architecture designed for automating data gathering and preprocessing using data harmonization methods. Our proposed microservices-based data harmonization architecture supports data importation from files or via APIs, facilitating flexibility in data sourcing. We analyze and prove our approach is efficient and effective in various aspects such as improving memory and computational time. To confirm the superiority we evaluated our method using various scenarios that included the efficacy of removing duplicate and empty entries in reducing memory consumption and preprocessing time over public and private datasets. Moreover, comparative analysis reveals that importing data from databases outperforms file-based imports. In addition to reducing manual overhead, our approach benefits from enhanced data quality through automated preprocessing, which can reduce costs and improve overall data integrity.