Ferrari, D. (2025). A Registry and Benchmarking Tool for Lossy Neural Image Compression [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.124401
Neuliche Fortschritte in Deep Learning und Hardware-Beschleunigung führten zur Entstehung von neuen Lösungen in KI-basierter Bildkomprimierung. Mit jeder neuen Lösung wurde es schwieriger, die tatsächlichen Auswirkungen jeder Änderung und getroffenen Entscheidung zu messen.Wir schlagen eine Zwei-Faktor-Lösung vor. Wir entwickeln eine Klassifizierung, die die grobe Landschaft der KI-unterstützten Bildkomprimierung darstellt. Sie ist in Kernkomponenten eingeteilt wie Quantifizierung, Kontext-Modelle, architektonische Archetypen, hierarchische Prioren und Modelle mit variabler Rate. Wir analysieren die Trends und Weiterentwicklungen, um Forschern und Forscherinnen den Einstieg und Weiterforschung zu erleichtern.Zusätzlich entwickeln wir ein Benchmark-Werkzeug, um die KI-Modelle zu trainieren und zu testen. Unsere Konfigurationen sind standardisiert und leicht änderbar. Der Test-Prozess misst und vergleicht Variationen der Konfiguration unter der Verwendung von verschiedenen Datensätzen und Metriken. Wir evaluieren jede Konfiguration mit den CLIC- und Kodak-Datensätzen. Wir messen die R-D Leistung, LPIPS, PSNR, MS-SSIM, Kodierungslatenz und den Kodierungsdurchsatz. Wir beobachten die Auswirkung der getroffennen Design-Entscheidungen wie die Änderung der Non-Linearity-Kernkomponente. Während die GSDN-Aktivierungsfunktion in der Non-Linearity-Kernkomponente in einem kleinen Netzwerk eine schlechtere Leistung erzielt hat, war die Leistung die Beste in größeren Netzwerken. Interessanterweise waren Konfigurationen, die größere Netzwerke definiert haben, zwar langsamer, haben aber eine bessere R-D Leistung für den gleichen Kompressionsfaktor erzielt.
de
Recent advancements in deep learning and hardware accelerators led to the appearance of many novel solutions in learned image compression. With each novel solution, measuring the impact of fine-grained decisions gets increasingly more challenging.We propose a two-fold solution. We develop a taxonomy to define the landscape of lossy learned image compression broadly. We classify advancements into core components such as quantization, context models, architectural archetypes, hierarchical priors, and variable rate models. We analyze the trends and advancements to aid novices and seasoned researchers in showing the focus points of current research.In addition, we develop a benchmarking tool to train and test models. Our standardized configurations are highly customizable by defining variations. The testing pipeline compares variations with multiple datasets and metrics. We evaluate each configuration on the CLIC and Kodak datasets. We measure the R-D performance, LPIPS, PSNR, MS-SSIM, encoding and decoding latency, and encoding and decoding throughput. We observe the impact of fine-grained design decisions, such as changing the non-linearity block. While the GSDN activation function within the non-linearity block performs worse in small networks, its best performance is achieved in deeper networks. Interestingly, configurations with deeper networks performed slower yet achieved higher visual quality for the same compression rates.We compare the learned image compression models with a fixed codec (BPG) to ensure comparable results. We find that the impact of minor design decisions depends on network size, resulting in vastly different performances.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers