Automating AI System Patterns and Components Extraction from Scientific Publications

Jugo, Dario

doi:10.34726/hss.2026.131866

Record link:

https://doi.org/10.34726/hss.2026.131866
http://hdl.handle.net/20.500.12708/227930

Title:

Automating AI System Patterns and Components Extraction from Scientific Publications

Citation:

Jugo, D. (2026). Automating AI System Patterns and Components Extraction from Scientific Publications [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2026.131866

reposiTUm DOI:

10.34726/hss.2026.131866

CatalogPlus:

AC17854296

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Jugo, Dario

Advisor:

Ekaputra, Fajar Juang

Organisational Unit:

E194 - Institut für Information Systems Engineering

Date (published):

2026

Number of Pages:

Keywords:

Neurosymbolic AI; Semantic Web; Machine Learning; AI System Patterns; Boxology; SciBERT

Abstract:

Eine zunehmende Anzahl wissenschaftlicher Publikationen schlägt neuartige Ansätze zur Integration von Semantic-Web- (SW) und Machine-Learning- (ML) Technologien vor,was das manuelle Lesen und die Kuratierung zunehmend erschwert. Diese Integrationen werden häufig mithilfe von Systemmustern beschrieben, die oft in Boxologie-Notation dargestellt werden. Derzeit existiert jedoch kein automatisierter Ansatz zur Extraktion solcher Systemmuster aus wissenschaftlichen Publikationen.Diese Arbeit begegnet dieser Lücke, indem sie einen automatischen Ansatz zur Systemmusterextraktion auf Basis vortrainierter encoder-basierter Sprachmodelle – insbesondere SciBERT – vorschlägt. Neben der Extraktion von Systemmustern zielt der vorgeschlagene Ansatz auch darauf ab, die einzelnen Komponenten zu identifizieren, aus denen diese Muster bestehen.Die experimentellen Ergebnisse zeigen, dass die vorgeschlagene Methode vielversprechend für die Systemmusterextraktion ist und einen F1-Score von 0,582 erzielt. Die Extraktion einzelner Komponenten hingegen bleibt ein anspruchsvolles und offenes Problem. Diese Arbeit stellt die untersuchten Ansätze, experimentellen Ergebnisse und aufgetretenen Herausforderungen vor und liefert damit Erkenntnisse für zukünftige Forschung zurautomatisierten Wissensextraktion aus wissenschaftlicher Literatur.

An increasing number of scientific publications propose novel approaches for integrating Semantic Web (SW) and Machine Learning (ML) technologies, making manual reading and curation increasingly challenging. These integrations are commonly described using system patterns, often represented through boxology notation. However, there is currently no automated approach for extracting such system patterns from scientific publications.This thesis addresses this gap by proposing an automatic system pattern extraction approach based on pretrained encoder-based language models, specifically SciBERT. Inaddition to extracting system patterns, the proposed approach also aims to identify the individual components that constitute these patterns.Experimental results show that proposed method is promising for system pattern extraction, achieving an F1-score of 0.582 for system pattern extraction. In contrast, the extraction of individual components remains a challenging and open problem. This thesis presents the explored approaches, experimental results, and the challenges encountered,providing insights for future research in automated knowledge extraction from scientific literature.

Additional information:

Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers

License:

In Copyright

Appears in Collections:

Thesis