Freitter, S. (2025). Automating ID Card Verification leveraging Deep Learning [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.123675
E193 - Institut für Visual Computing and Human-Centered Technology
-
Date (published):
2025
-
Number of Pages:
61
-
Keywords:
Deep Learning; Object Detection; CNN; ID Card Verification; OCR
en
Abstract:
In dieser Arbeit wird die Anwendung von Deep-Learning-Techniken für die automatische Überprüfung von Ausweiskarten untersucht, wobei der Schwerpunkt auf optischen Merkmalen liegt. Zu den wichtigsten Herausforderungen gehören die Handhabung begrenzter Trainingsdaten, Klassenungleichgewicht und unleserlicher Text aufgrund von Abnutzung oder Verpixelung. Das vorgeschlagene System besteht aus drei Kernmodulen: Segmentierung, Klassifizierung und Textextraktion von ID-Karten. Das fertige System wird anschließend vom Österreichischen Roten Kreuz eingesetzt.Die Segmentierung erfolgt anhand des YOLOv8-Modells, das die ID-Karte im Eingabebild identifiziert. Die Leistung des Modells wird anhand der in dieser Studie eingeführten Metrik Recall@IoU-MinIS bewertet. Die vom YOLOv8-Modell ausgewählte Bildregion wird anschließend als Eingabe für das Klassifizierungsmodell verwendet. Für die Klassifizierung werden mehrere Ansätze mit einem ResNet-Backbone bewertet: Cross-Entropy Loss, Triplet Margin Loss und Angular Margin Loss. Für die Textextraktion werden drei OCR-Technologien bewertet: Tesseract, EasyOCR und PaddleOCR. Darüber hinaus wird die mögliche Leistungssteigerung durch die zusätzliche Anwendung des multimodalen Large Language Models Llama 3.2 Vision untersucht.Bei Anwendung der Recall@IoU-MinIS-Metrik erreicht das YOLOv8-Modell eine genaue Segmentierung für 90 % der ID-Karten. Innerhalb des Klassifizierungsmoduls erreichen Modelle, die auf Angular Margin basierendem Metric Learning beruhen, eine maximale Genauigkeit von 98,07 % und eine normalisierte Genauigkeit von 97,08 % und übertreffen damit die anderen Ansätze. Die Robustheitsanalyse verdeutlicht die Herausforderungen bei der Unterscheidung visuell ähnlicher ID-Karten, auf denen das Modell nicht trainiert wurde. Dieses Problem wird durch die Einbeziehung von Konfidenzschwellen gemildert. Bei der Textextraktion zeigt PaddleOCR eine überlegene Leistung, indem es 93,35 % aller Felder korrekt extrahiert und bei 82,51 % der ID-Karten vollständige Korrektheit erreicht. In Kombination mit EasyOCR verbessern sich diese Werte auf 95,30 % bzw. 87,43 %. Die Integration von Llama 3.2 Vision steigert die Genauigkeit der vollständigen Ausweiserfassung weiter auf 96,72 %, allerdings mit erheblich höherem Rechenaufwand. Mit einer Toleranz für die Fehlerspanne extrahiert PaddleOCR unabhängig 97,89 % aller Felder korrekt und erreicht eine vollständige Korrektheit für 93,99 % der Ausweise.
de
This thesis examines the application of deep learning techniques for automated ID card verification, focusing on optical characteristics. The key challenges addressed include managing limited training data, class imbalance, and text obscured by wear or pixelation. The proposed system consists of three core modules: ID card segmentation, classification, and text extraction. The completed system is subsequently used by the Austrian Red Cross.For segmentation, the YOLOv8 model identifies the ID card within the input image. The model's performance is evaluated using the Recall@IoU-MinIS metric introduced in this study. The image region selected by the YOLOv8 model is subsequently utilized as input for the classification model. For classification, multiple approaches using a ResNet backbone are assessed, including Cross-Entropy Loss, Triplet Margin Loss, and Angular Margin Loss. For text extraction, three OCR technologies are evaluated: Tesseract, EasyOCR, and PaddleOCR. Furthermore, the potential enhancement of performance through the auxiliary application of the multimodal large language model Llama 3.2 Vision is investigated.Applying the Recall@IoU-MinIS metric, the YOLOv8 model achieves accurate segmentation for 90 % of the ID cards. Within the classification module, models utilizing angular margin-based metric learning attain a maximum accuracy of 98.07 % and a normalized accuracy of 97.08 %, outperforming other approaches. Robustness analysis highlights challenges in differentiating visually similar ID cards, which the model has not been trained on. This issue is mitigated by incorporating confidence thresholds. For the text extraction task, PaddleOCR demonstrates superior performance, accurately extracting 93.35 % of all fields and achieving full correctness for 82.51 % of ID cards. When combined with EasyOCR, these metrics improve to 95.30 % and 87.43 %, respectively. The integration of Llama 3.2 Vision further increases the accuracy of complete ID card extraction to 96.72 %, though at a significantly higher computational cost. Allowing for an error margin tolerance, PaddleOCR independently extracts 97.89 % of all fields correctly and achieves complete correctness for 93.99 % of ID cards.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers