de Lambertye, G. (2024). Music semantic reconstruction with deep learning : learning how to construct music notation graphs with graphs neural networks [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.120481
E193 - Institut für Visual Computing and Human-Centered Technology
-
Date (published):
2024
-
Number of Pages:
75
-
Keywords:
Machine Learning; Deep Learning; Optical Music Recognition; OMR; Graph Neural Networks; GNN; Music
en
Abstract:
Musik ist vergänglich; sie existiert nur kurz, bevor sie verhallt. Um Musik über die Zeit zu bewahren, wurden viele Notationssysteme entwickelt, die jedoch meist für die menschliche Interpretation gedacht sind. Die optische Musikerkennung (Optical Music Recognition, OMR)) beschäftigt sich mit der automatischen Erkennung dieser Notationen und deren Umwandlung in maschinenlesbare Formate. Die OMR-Prozesskette umfasst vier Hauptphasen: Bildvorverarbeitung, Erkennung von Musiksymbolen, semantische Rekonstruktion und Kodierung. Die semantische Rekonstruktion konzentriert sich darauf, die Bedeutungen der Musiknoten zu entschlüsseln, indem die Beziehungen zwischen den erkannten Musiksymbolen wiederhergestellt werden. In diesem Kontext wird die Semantik durch die Konfiguration und Anordnung musikalischer Grundelemente wie Vorzeichen, Notenköpfe und Fähnchen definiert, deren Gruppierung ihre Interaktionen und den intendierten Klang bestimmt. Studien betonen die grafische Natur von Musiknoten und führen das Konzept des Music Notation Graph (MuNG) ein, in dem musikalische Primitive als Knoten und deren Beziehungen als Kanten dargestellt werden. Diese graphische Struktur bietet vielversprechende Möglichkeiten für den Einsatz von Graph Neural Networks (GNN). In der vorliegenden Masterarbeit wird die Anwendung von GNNs zur semantischen Rekonstruktion in der OMR untersucht. Es wird eine innovative Pipeline vorgeschlagen, die GNNs in OMR integriert, und es werden Herausforderungen wie die Bewertung und der Vergleich der OMR-Ergebnisse sowie die Definition von MuNGs diskutiert.
de
Music is fleeting by nature, existing briefly before fading away. Yet more than one wants to preserve it over time and many music notation systems have been developed with this intention. However, most of these formats have been designed for humans to read them. Optical Music Recognition (OMR) is a research field dedicated to investigating how to computationally read music notation and create computer-readable scores from traditional scores. The typical OMR pipeline is divided into four stages: Image preprocessing, Music object detection, Semantic reconstruction, and Encoding. The third stage of the pipeline aims at reconstructing the semantics of the music notation, reestablishing connections between the objects detected previously. This work focuses on scores written in the most common notation system called Common Western Music Notation (CWMN). In this context, the semantics are defined by the configuration of the musical primitives (accidental, noteheads, or flags), how they are grouped and arranged defines their interactions and how the music should sound. Some research exhibits the graph-like property of the music and introduces the concept of Music Notation Graph (MuNG): graphs constructed with the music primitives as nodes and their relations as edges. This graph structure makes it a candidate for leveraging the power of Graph Neural Networks (GNN). This master thesis investigates how GNNs can be used to perform the music semantic reconstruction. We propose a novel pipeline for using GNNs in OMR and discuss a few unsolved problems of the field like how to measure and compare the output of an OMR system or how to define MuNGs.