Straßgürtl, H. A. (2025). Evaluating CAD-based approaches to enhance object detection in industrial automation [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.130130
With the increasing performance of object detection models, industries are seeking to incorporate such systems into their production environments. However, the effective deployment of object detection models critically depends on the availability of high-quality training data. This poses a particular challenge in industrial settings, where individually designed components are used that are not included in common datasets. As a result, specialized datasets must be collected, which is often impractical or time-consuming. To address this issue, this master thesis investigates three approaches that eliminate the need for specialized real-world datasets. The first approach, SDGP, generates a synthetic dataset by rendering images from the CAD models of the target objects and trains aYOLOv8 model on this data. The second and third approaches are Zero-Shot Object Detection methods. While CNOS uses rendered CAD-based reference templates as class descriptors, Grounded-SAM-2 uses textual descriptions. All approaches are evaluated on the Real-Images Dataset captured in an automated production line of Siemens AG, covering four object types: metal enclosures, front panels, isolation plates, and PCBs. The results show that the SDGP, CNOS, and Grounded-SAM-2 methods reach maximum mAP50-95 scores of 0.756, 0.697, and 0.58, respectively. While challenges remain, especially for the isolation plates and PCBs, further optimization steps, such as image preprocessing, parameter tuning, and prompt refinement, could improve performance and make thesemethods viable alternatives to models trained directly on real-world images.
en
Mit der zunehmenden Leistungsfähigkeit von Objekterkennungsmodellen streben Unternehmen danach, solche Systeme in ihre Produktionsumgebungen zu integrieren. Die effektive Implementierung dieser Modelle hängt jedoch entscheidend von der Verfügbarkeit hochwertiger Trainingsdaten ab. Dies stellt insbesondere in industriellen Anwendungen eine Herausforderung dar, in denen individuell gestaltete Bauteile verwendet werden, die nicht in gängigen Datensätzen enthalten sind. Infolgedessen müssen spezialisierte Datensätze erstellt werden, was oft unpraktisch oder zeitaufwendig ist. Um dieses Problem zu adressieren, werden drei Ansätze in dieser Masterarbeit untersucht, die den Bedarf an spezialisierten Datensätzen mit realen Bildern eliminieren. Der erste Ansatz, SDGP, erzeugt einen synthetischen Datensatz, indem Bilder aus den CAD-Modellen der Zielobjekte gerendert werden und anschließend ein YOLOv8-Modell auf diesen Daten trainiert wird. Die zweiten und dritten Ansätze sind Zero-Shot Object Detection-Methoden. Während CNOS gerenderte CAD-basierte Referenzvorlagen zur Definition der Klassen verwendet, nutzt Grounded-SAM-2 textuelle Beschreibungen. Alle Ansätze werden auf einem Datensatz mit realen Bildern evaluiert, der in einer automatisierten Produktionslinie der Siemens AG aufgenommen wurde und vier Objekttypen umfasst: Metallgehäuse, Frontplatten, Isolierplatten und PCBs. Die Ergebnisse zeigen, dass die Methoden SDGP, CNOS und Grounded-SAM-2 maximale mAP50-95-Werte von 0.756, 0.697 bzw. 0.58 erreichen. Obwohl weiterhin Herausforderungen bestehen, insbesondere bei den Isolierplatten und PCBs, könnten Optimierungsschritte wie Bildvorverarbeitung, Parameteranpassung und Prompt-Feinabstimmung die Leistung verbessern und diese Methoden zu praktikablen Alternativen zu Modellen machen, die direkt auf realen Bildern trainiert wurden.
de
Additional information:
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers