Altug, B. (2024). Increasing the machine-actionability of structured research data : via semiautomatic ontology mapping of data attributes [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.120526
E194 - Institut für Information Systems Engineering
-
Date (published):
2024
-
Number of Pages:
132
-
Keywords:
FAIRification; Scientific data attribute; object entity; unit entity; semi-automated mapping; data attribute mapping; ontology relevance
en
Abstract:
Die Optimierung der Verwaltung von Forschungsdaten kann die Effizienz von Wissenschaftlern steigern. Ein Datenbank-Repository, das Richtlinien für Auffindbarkeit, Zugänglichkeit, Interoperabilität und Wiederverwendbarkeit befolgt, spielt dabei eine zentrale Rolle. Um die maschinelle Verwertbarkeit weiter zu verbessern, muss die Interoperabilität von Daten über verschiedene wissenschaftliche Bereiche hinweg gewährleistet sein. Dies kann durch die Definition der Semantik und der Maßeinheiten der Daten unter Verwendung mehrerer benutzerdefinierter Objektontologien und einer einheitlichen Einheitenontologie erreicht werden. Dies ermöglicht es Wissenschaftlern, mit Objekten in verschiedenen Bereichen zu arbeiten und Berechnungen mit einheitlichen Einheitenbezeichnungen durchzuführen.Dies erfordert eine halbautomatische Zuordnung von Attributen zu Entitäten aus einer Objekt- und Einheitenontologie. Während die Zuordnung von Schema-Spalten zu Ontologie-Entitäten gut erforscht ist, befassen sich die bestehenden Systeme nicht speziell mit der Herausforderung, wissenschaftliche Daten abzubilden und gleichzeitig Entitäten zu isolieren, insbesondere bei der Zuordnung von Einheiten.Wir schlagen daher ein halbautomatisches System vor, das eine Methode zur Berechnung der Ähnlichkeit von Einheiten, zwei Möglichkeiten zur Beeinflussung der Ergebnisse durch Benutzereingaben und eine Strategie zur Optimierung des Einsatzes dieser Methoden bietet.Unser System ordnet wissenschaftliche Schemadatenspalten mit Kardinalitäten von n:1 und 1:1 auf der Elementebene sowohl Objekt- als auch Unit-Entitäten zu. Es nutzt ein Texteinbettungsmodell zur Kodierung von Spaltennamen und Entitätsbezeichnungen, wobei die Kosinusähnlichkeit die Relevanz berechnet. Dieser Ansatz schlägt 89.9% der korrekten Objektentitäten in den ersten 10% aller Objektentitäten vor (Entity Coverage) und erreicht einen Mean Reciprocal Rank (MRR) von 0.5259, was alle anderen Ansätze übertrifft. Ein ähnlicher Kodierungsansatz, der das Schlüsselwort "unit" hinzufügt, wird für die Ähnlichkeit zwischen Spalten und Einheitsentitäten verwendet, erzielt eine Abdeckung von 64.4% und einen MRR von 0.1164. Die einheitliche Ähnlichkeitsmetrik für Objekt- und Einheitenvorschläge ermöglicht zwei neue Methoden zur Verbesserung der Abdeckung und MRR durch Benutzereingaben während des Mapping-Prozesses.
de
Optimizing the management of research data may increase scientists' efficiency. The Database Repository, as a research data management tool, plays a crucial role in achieving this optimization by following the Findability, Accessibility, Interoperability, and Reusability guidelines, which emphasize machine-actionability. However, to further enhance the machine-actionability of experiments, it is essential to ensure data interoperability across different scientific domains. Interoperability in scientific data can be achieved by defining the semantics of what the data represents and the used units of measurement. This approach involves employing multiple custom object ontologies alongside a unified unit ontology. This setup enables scientists to interact with objects from various scientific domains while maintaining the ability to perform calculations using consistent unit Internationalized Resource Identifiers.Achieving this requires a semi-automatic mapping of attributes (e.g., columns in a relational database schema) to entities from both an object ontology and a unit ontology. While mapping schema columns to ontology entities is a well-established area, existing systems do not specifically tackle the distinct challenge of mapping scientific data while isolating units, particularly in the context of unit matching. Therefore, we propose a semi-automatic system that introduces an approach for calculating unit similarity, two methods that use user input to influence the outcome of unit similarity results, and a strategy for utilizing these methods to achieve optimal performance.Our system maps scientific schema data columns with n:1 and 1:1 element-level cardinalities to both object and unit entities. It utilizes a text embedding model to encode column names and entity labels of objects that employ cosine similarity to calculate relevance. This approach successfully suggests 89.9% of the correct entities within the first 10% of all entities (entity coverage) and achieves a Mean Reciprocal Rank (MRR) of 0.5259, outperforming all other approaches. For calculating the similarity between columns and unit entities, a similar approach is employed with an encoding method that adds the "unit" keyword at the end of entity labels. This achieves a 64.4% entity coverage and 0.1164 MRR, also surpassing all other tested approaches. The unified similarity metric used for object and unit suggestions allows for the application of two new indirect and direct influencing methods during the mapping process which threats users as an auxiliary linguistic resource. These methods improve the overall coverage and MRR of the mapping when used according to our introduced strategies.