Graph Neural Networks for Writer Identification and Retrieval

Pilizar, Oliver

doi:10.34726/hss.2026.125394

Record link:

https://doi.org/10.34726/hss.2026.125394
http://hdl.handle.net/20.500.12708/228324

Title:

Graph Neural Networks for Writer Identification and Retrieval

Citation:

Pilizar, O. (2026). Graph Neural Networks for Writer Identification and Retrieval [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2026.125394

reposiTUm DOI:

10.34726/hss.2026.125394

CatalogPlus:

AC17882854

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Pilizar, Oliver

Advisor:

Kleber, Florian

Co-advisor:

Peer, Marco

Organisational Unit:

E193 - Institut für Visual Computing and Human-Centered Technology

Date (published):

2026

Number of Pages:

Keywords:

graph neural networks; writer identification; writer retrieval; handwriting analysis; SIFT features; CNN embeddings; learned aggregation function; CVL dataset; line-level; document-level

Abstract:

Schreiberidentifizierung (Writer Identification) zielt darauf ab, ein handschriftliches Dokument seinem korrekten Autor zuzuordnen, während Schreibersuche (Writer Retrieval) darauf abzielt, Dokumente desselben Autors aus einer Datenbank abzurufen. Während aktuelle State-of-the-Art-Ansätze auf Dokumentenebene hohe Leistung erzielen, führt die Verwendung von statischen Aggregationsmethoden wie Mittelwert- oder Summenbildung, die Wort- oder Zeilenfeatures zu globalen Repräsentationen von Dokumenten zusammenfassen und dabei feingranulare Details nicht erfassen, zu einem Leistungsabfall auf Wort- und Zeilenebene. In dieser Arbeit wird eine gelernte Aggregationsfunktion auf Basis von Graph Neural Networks vorgestellt, wobei jeder Graph ein Dokument oder eine Zeile als Ganzes repräsentiert. Innerhalb jedes Graphen kodieren die einzelnen Knoten aggregierte Repräsentationen lokaler Handschriftmerkmale, während die Graphstruktur deren räumliche Beziehungen modelliert. Es werden Experimente durchgeführt, um den Einfluss verschiedener Designentscheidungen zu untersuchen, einschließlich der Anzahl und Art der Merkmale, der Strategien zur Graphkonstruktion sowie der Architekturen der Graph Neural Networks. Die Experimente werden hinsichtlich der Identifikationsgenauigkeit, der Hard-Top-k-Metrik und der Mean Average Precision evaluiert. Die Ergebnisse heben das Potenzial von Graph Neural Networks als gelernte Aggregationsfunktion im Kontext der Schreiberidentifizierung und -suche hervor. Beispielsweise erzielt die beste Konfiguration im Rahmen der Schreibersuche auf Dokumentenebene eine mittlere durchschnittliche Präzision (mean Average Precision) von 79,36% und 66,58% auf Zeilenebene im CVL-Datensatz mit durchschnittlich 250 Featurepunkten pro Zeile. Dies zeigt eine starke Leistung auf Dokumentenebene und kommt insbesondere der Aufgabe auf Zeilenebene zugute, bei der nur eine begrenzte Menge an Handschriftinformationen zur Verfügung steht.

Writer identification aims to assign a handwritten document to its correct author, whereas writer retrieval aims to retrieve documents written by the same author. While current state-of-the-art approaches achieve high performance at the document-level, their use of simplistic aggregation methods such as mean or sum to combine word- or line-level features into global document representations fails to capture fine-grained details, leading to a degradation of performance at those levels. This thesis proposes a learned aggregation function based on a graph neural network, in which each graph represents a document or line as a whole. Within each graph, the individual nodes encode aggregated representations of local handwriting features, while the graph structure explicitly models their spatial relationships. Experiments are conducted to investigate the impact of different design choices, including the number and type of features, graph construction strategies, and graph neural network architectures. These experiments are evaluated with respect to identification accuracy, hard Top-k, and mean average precision. The results highlight the potential of graph neural networks as a learned aggregation function in the context of writer identification and retrieval. For instance, the best configuration at the document-level achieves a mean average precision of 79.36% and 66.58% at the line-level on the CVL dataset during retrieval, both using on average 250 feature points per line. This demonstrates strong performance at the document-level while particularly benefiting the line-level task where only a limited amount of handwriting information is available.

Additional information:

Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers

License:

In Copyright

Appears in Collections:

Thesis