Düsseldorf, H. (2025). Generische ETL-Codebasis zur Gesundheitsdatentransformation aus dem EAV-Modell in das OMOP Common Data Model [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.124116
E194 - Institut für Information Systems Engineering
-
Date (published):
2025
-
Number of Pages:
146
-
Keywords:
Healthcare Data Transformation; OMOP CDM; Entity-Attribute-Value Model; ETL Process; Data Harmonization; Semantic Interoperability; Gesundheitsdatentransformation; Datenharmonisierung; Semantische Interoperabilität
en
Abstract:
Die Standardisierung von Gesundheitsdaten ist entscheidend, um multizentrische Forschung zu ermöglichen, die klinische Entscheidungsfindung zu verbessern und die Reproduzierbarkeit datenbasierter Erkenntnisse sicherzustellen. Gesundheitsinstitutionen speichern ihre Daten jedoch oft in heterogenen Formaten und institutionsspezifischen Datenmodellen. Ein Beispiel ist das an der Medizinische Universität Wien (MedUni Wien) eingesetzte flexible Entity-Attribute-Value (EAV)-Modell, das auf die Bedürfnisse der Institution zugeschnitten ist. Solche individuellen Modelle erschweren die semantische Interoperabilität und die Integration klinischer Daten.Zur Bewältigung dieser Herausforderung stellt diese Arbeit einen generischen Extract, Transform, Load (ETL)-Prozess vor, der Gesundheitsdaten aus dem EAV-Modell der MedUni Wien in das Observational Medical Outcomes Partnership (OMOP) Common Data Model (CDM) überführt. Ziel ist ein wiederverwendbares und erweiterbares ETL-Framework, das sich an verschiedene Datensätze und Anwendungsfälle anpassen lässt. Die Entwicklung erfolgte iterativ und feedbackbasiert auf Basis domänenspezifischer Anforderungen und verband konzeptionelle Modellierung, Implementierung und Evaluation. Der Prototyp wurde anhand von zwei Evaluationsszenarien mit realen Daten der MedUni Wien validiert: automatisierte Überwachung von hospital-onset bacteremia and fungemia (HOB) sowie breast cancer benchmarking (BCB). In beiden Fällen gelang die erfolgreiche Transformation heterogener Quelldaten in das OMOP CDM, womit die Anpassungsfähigkeit an unterschiedliche klinische Domänen belegt wurde.Die Evaluation zeigt, dass das System strukturelle Variabilität bewältigen und in verschiedenen Anwendungsfällen eingesetzt werden kann. Während im HOB-Fall effiziente Laufzeiten erreicht wurden, führten die umfangreicheren BCB-Daten zu längeren Verarbeitungszeiten und verdeutlichten Optimierungspotenzial bei großen Datenmengen. Beide Szenarien bestätigten die korrekte Transformation und die Erweiterbarkeit des Frameworks.Die Ergebnisse belegen, dass eine flexible und strukturierte ETL-Strategie die zuverlässige Transformation EAV-basierter Gesundheitsdaten in das OMOP CDM ermöglicht und zu Standardisierung und Interoperabilität in klinischen Datenumgebungen beitragen kann.
de
The standardization of healthcare data is crucial for enabling multicenter research, enhancing clinical decision-making, and ensuring reproducibility of data-driven insights. However, healthcare institutions often store their data in heterogeneous formats and institution-specific models. For example, the flexible Entity-Attribute-Value (EAV) model used at Medical University of Vienna (MedUni Vienna) is tailored to the institution’s needs. Such individualized data models limit semantic interoperability and complicate clinical data integration.To address this challenge and realize the benefits of standardized data, this thesis presents a generic Extract, Transform, Load (ETL) process transforming healthcare data from the EAV model used at the MedUni Vienna into the Observational Medical Outcomes Partnership (OMOP) Common Data Model (CDM). The objective is a reusable, extensible, and high-quality ETL framework adaptable to various datasets and use cases. The system was designed based on domain-specific requirements and was developed through an iterative, feedback-driven process that integrates conceptual modeling, technical implementation, and evaluation.The prototype was validated through two evaluation scenarios using real-world datasets from the MedUni Vienna: automated surveillance of hospital-onset bacteremia and fungemia (HOB) and breast cancer benchmarking (BCB) across European hospitals. In both scenarios, the system successfully transformed complex and heterogeneous source data into the OMOP CDM, demonstrating adaptability to different clinical domains. The evaluation highlights the system’s ability to manage structural variability and apply semantic mappings across use cases. The HOB scenario demonstrated efficient runtimes. In contrast, the BCB scenario involved large-scale data, resulting in longer runtimes and highlighting the need for performance optimization in high-volume settings. Nevertheless, both evaluation scenarios confirmed the correctness of the transformation, and the reuse of shared components validated the framework’s reusability and adaptability.These results demonstrate that a flexible yet structured ETL strategy can enable the reliable transformation of EAV-based healthcare data into the OMOP CDM, contributing to broader standardization and interoperability in clinical data environments.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft