Fusing two pretrained object detection networks

Salamon, Julius

doi:10.34726/hss.2024.116502

Record link:

https://doi.org/10.34726/hss.2024.116502
http://hdl.handle.net/20.500.12708/205442

Title:

Fusing two pretrained object detection networks

Citation:

Salamon, J. (2024). Fusing two pretrained object detection networks [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.116502

reposiTUm DOI:

10.34726/hss.2024.116502

CatalogPlus:

AC17387946

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Salamon, Julius

Advisor:

Jantsch, Axel

Co-advisor:

Breuss, David

Organisational Unit:

E384 - Institut für Computertechnik

Date (published):

2024

Number of Pages:

Keywords:

Fusion; Network Fusion; Object Detection; Machine Learning; Knowledge Condensation; Pruning

Abstract:

Today’s rapidly evolving field of computer vision is primarily driven by CNNs trained on large volumes of labeled data.Extending or modifying these networks typically requires access to the original labeled dataset, which may also needto be relabeled. However, developments in privacy laws, data storage costs, and potential data loss due to accidents orattacks pose significant challenges. These issues can lead to dataset loss, making trained models inflexible or even unusable over time. Furthermore, to expand an existing CNN for object detection, the entire original dataset would needto be relabeled to include new classes, often requiring additional data, which can result in substantial time and costimplications. This thesis explores a method to fuse two pre-trained CNNs for object detection, each trained on differentor partially overlapping classes. The objective is to create a unified model capable of detecting all classes with greatercomputational efficiency than running both networks independently while minimizing precision loss. This approachaddresses the challenges posed by the lack of original training datasets, which makes re-training with raw data impossible. By combining existing models, this method offers a practical solution to the limitations of data availability issues.For this model combination, a novel fusion layer is introduced to combine the feature spaces of the two networks, facilitating mutual support between them and enabling a more comprehensive detection capability. Additionally, pruningtechniques are applied to improve the speed and efficiency of the fused network. Based on this, multiple architectures forfusion models are proposed. However, none of the proposed fusion models surpassed the performance of a 50% prunedversion of the original models. Consequently, an alternative approach using a teacher-student framework is proposed.Although this approach did not exceed the pruned original models’ detection accuracy, it reduced inference time bynearly 50% while maintaining comparable accuracy. This thesis contributes to developing resource-efficient, adaptivecomputer vision systems that remain effective even when access to original datasets is restricted. The proposed methods highlight a pathway for enhancing model adaptability and efficiency, ultimately promoting more sustainable andflexible solutions in object detection. These findings offer valuable insights for advancing computer vision applicationsin settings where data limitations and computational constraints are critical concerns.

Das sich schnell entwickelnde Feld der Computer Vision basiert heute überwiegend auf CNNs, die auf großen Mengen gelabelter Daten trainiert werden. Veränderungen oder Erweiterungen dieser Netzwerke setzen meist den Zugang zu den ursprünglichen gelabelten Datensätzen voraus, die oft zusätzlich neu gelabelt werden müssen. Durch Entwicklungen in den Datenschutzgesetzen, steigende Kosten für die Datenspeicherung und mögliche Verluste durch Unfälle oder Angriffe entstehen jedoch erhebliche Herausforderungen. Diese können zu einem Verlust von Datensätzen führen, wodurch trainierte Modelle mit der Zeit unflexibel oder gar unbrauchbar werden. Darüber hinaus erfordert die Erweiterung eines bestehenden CNNs für die Objekterkennung das Neulabeln des gesamten ursprünglichen Datensatzes, um neue Klassen einzuschließen. Dies kann mit erheblichen Zeit- und Kostenaufwänden verbunden sein. In dieser Arbeit wird eine Methode zur Kombination zweier vortrainierter CNNs für die Objekterkennung untersucht, von denen jedes auf unterschiedliche oder teilweise überlappende Klassen trainiert wurde. Ziel ist es, ein einheitliches Modell zu schaffen, das alle Klassen erkennen kann und dabei effizienter arbeitet, als wenn beide Netzwerke unabhängig voneinander laufen würden, wobei ein möglicher Verlust an Präzision minimiert wird. Diese Vorgehensweise adressiert das Problem des fehlenden Zugriffs auf die ursprünglichen Trainingsdatensätze, sodass ein erneutes Training mit Rohdaten unmöglich wird. Durch die Kombination vorhandener Modelle bietet dieser Ansatz eine praktikable Lösung für Probleme bei der Datenverfügbarkeit. Zur Realisierung dieses Ziels wird eine neuartige Fusionsebene eingeführt, die die Merkmalsräume der beiden Netzwerke kombiniert und deren wechselseitige Unterstützung ermöglicht, um eine umfassendere Erkennungskapazität zu schaffen. Zudem werden Pruning-Techniken angewendet, um die Geschwindigkeit und Effizienz des fusionierten Netzwerks zu steigern. Basierend darauf werden mehrere Fusionsarchitekturen vorgeschlagen. Allerdings übertraf keines der vorgeschlagenen Fusionsmodelle die Leistung einer um 50 % geprunten Version der Originalmodelle. Daher wird ein alternativer Ansatz mit einem Teacher-Student-Framework vorgeschlagen. Auch wenn dieser Ansatz die Erkennungsgenauigkeit der geprunten Originalmodelle nicht übertraf, konnte die Inferenzzeit um nahezu 50 % reduziert werden, bei vergleichbarer Genauigkeit. Diese Arbeit leistet einen Beitrag zur Entwicklung ressourceneffizienter und adaptiver Computer-Vision-Systeme, die auch bei eingeschränktem Zugang zu den ursprünglichen Datensätzen leistungsfähig bleiben. Die vorgeschlagenen Methoden zeigen einen Weg zur Steigerung der Anpassungsfähigkeit und Effizienz von Modellen auf und fördern letztlich nachhaltigere und flexiblere Lösungen in der Objekterkennung. Diese Erkenntnisse bieten wertvolle Einblicke für die Weiterentwicklung von Computer Vision-Anwendungen in Szenarien, in denen Datenbeschränkungen und Rechenkapazitätsgrenzen entscheidende Herausforderungen darstellen.

License:

In Copyright

Appears in Collections:

Thesis