Neumaier, S. (2015). Open data quality : assessment and evolution of (meta-)data quality in the open data landscape [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2015.30486
Open Data; Open Data Portals; Data Quality; CSV; Metadata
en
Abstract:
Die Open-Data-Bewegung erfreut sich wachsender Beliebtheit unter Regierungen und öffentlichen Institutionen, aber auch in der Privatwirtschaft und unter Privatpersonen, und gewinnt so immer mehr Unterstützerinnen und Unterstützer aus all diesen Sektoren. Gleichzeitig melden sich aber auch vermehrt kritische Stimmen zu Wort. Hauptsorge ist die niedrige Metadaten-Qualität in Open Data Portalen, die eine Beeinträchtigung der Suche und der Auffindbarkeit von Ressourcen mit sich bringt. Bis jetzt konnte diese Sorge jedoch nicht belegt werden, da es noch keinen umfassenden und objektiven Bericht über die wirkliche Qualität von Open Data Portalen gibt. Um so einen Bericht erstellen zu können, wird ein Framework benötigt, welches die Portale über einen längeren Zeitraum hinweg beobachtet und so die Entwicklung und das Wachstum von Open Data abschätzen kann. Die vorliegende Diplomarbeit hat das Ziel diese Qualitätsprobleme in Open Data Portalen zu untersuchen. Dazu wird ein Monitoring Framework vorgestellt, welches in regelmäßigen Abständen die Metadaten von 126 CKAN Portalen speichert und deren Qualität bewertet. Die Arbeit stellt die dazu notwendigen Qualitätsmetriken vor, diskutiert den Aufbau des Monitoring Frameworks und präsentiert Erkenntnisse und Resultate, die aus dem Monitoring der Portale gewonnen werden konnten. Dazu werden Auswertungen der eingeführten Qualitätsmetriken prästeniert, die auf Qualitätsprobleme in den untersuchten Datenportalen hinweisen. Konkret konnte unter anderem ein schnelles Wachstum von diversen Open Data Portalen und eine hohe Heterogenität bezüglich der Datenformate und Lizenzen beobachtet werden. Darüberhinaus wird in dieser Arbeit ein Ansatz zur Homogenisierung von Metadaten von unterschiedlichen Datenportalen vorgestellt: Dazu wird ein Mapping vorgestellt, welches die Metadaten von CKAN, Socrata und OpenDataoft Portalen auf ein gemeinsames Schema bringt und damit die Portale vergleichbar und integrierbar macht.
de
While the Open Data movement enjoys great popularity and enthusiasm among governments, public institutions and also increasingly in the private sector, first critical voices start addressing the emerging issue of low quality of metadata and data sources in Open Data portals with the risk of compromising searchability and discoverability of resources. However, there neither exists a comprehensive and objective report about the actual state and quality of Open Data portals, nor is there a framework to continuously monitor the evolution of these portals. The present thesis tries to fill this gap. More concretely, in this work we present our efforts to confirm - or refute - various quality issues in Open Data by monitoring and assessing the quality of 126 CKAN data portals. We define our quality metrics, introduce our automated assessment framework and report comprehensive findings by analyzing the data and the evolution of the portals. We confirm the fast evolution of Open Data, pinpoint certain quality issues prevalent across the portals, and include insights about heterogeneity in Open Data such as the diversity of file format descriptions and the licensing of datasets. Another contribution of this thesis is an approach towards the homogenization of metadata found on different data publishing frameworks: we propose a common mapping for metadata occurring on CKAN, Socrata and OpenDataSoft portal software frameworks in order to improve the comparability and interoperability of portals running these different software frameworks.