<div class="csl-bib-body">
<div class="csl-entry">Ferrari, D. (2025). <i>A Registry and Benchmarking Tool for Lossy Neural Image Compression</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.124401</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2025.124401
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/213281
-
dc.description
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft
-
dc.description
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers
-
dc.description.abstract
Neuliche Fortschritte in Deep Learning und Hardware-Beschleunigung führten zur Entstehung von neuen Lösungen in KI-basierter Bildkomprimierung. Mit jeder neuen Lösung wurde es schwieriger, die tatsächlichen Auswirkungen jeder Änderung und getroffenen Entscheidung zu messen.Wir schlagen eine Zwei-Faktor-Lösung vor. Wir entwickeln eine Klassifizierung, die die grobe Landschaft der KI-unterstützten Bildkomprimierung darstellt. Sie ist in Kernkomponenten eingeteilt wie Quantifizierung, Kontext-Modelle, architektonische Archetypen, hierarchische Prioren und Modelle mit variabler Rate. Wir analysieren die Trends und Weiterentwicklungen, um Forschern und Forscherinnen den Einstieg und Weiterforschung zu erleichtern.Zusätzlich entwickeln wir ein Benchmark-Werkzeug, um die KI-Modelle zu trainieren und zu testen. Unsere Konfigurationen sind standardisiert und leicht änderbar. Der Test-Prozess misst und vergleicht Variationen der Konfiguration unter der Verwendung von verschiedenen Datensätzen und Metriken. Wir evaluieren jede Konfiguration mit den CLIC- und Kodak-Datensätzen. Wir messen die R-D Leistung, LPIPS, PSNR, MS-SSIM, Kodierungslatenz und den Kodierungsdurchsatz. Wir beobachten die Auswirkung der getroffennen Design-Entscheidungen wie die Änderung der Non-Linearity-Kernkomponente. Während die GSDN-Aktivierungsfunktion in der Non-Linearity-Kernkomponente in einem kleinen Netzwerk eine schlechtere Leistung erzielt hat, war die Leistung die Beste in größeren Netzwerken. Interessanterweise waren Konfigurationen, die größere Netzwerke definiert haben, zwar langsamer, haben aber eine bessere R-D Leistung für den gleichen Kompressionsfaktor erzielt.
de
dc.description.abstract
Recent advancements in deep learning and hardware accelerators led to the appearance of many novel solutions in learned image compression. With each novel solution, measuring the impact of fine-grained decisions gets increasingly more challenging.We propose a two-fold solution. We develop a taxonomy to define the landscape of lossy learned image compression broadly. We classify advancements into core components such as quantization, context models, architectural archetypes, hierarchical priors, and variable rate models. We analyze the trends and advancements to aid novices and seasoned researchers in showing the focus points of current research.In addition, we develop a benchmarking tool to train and test models. Our standardized configurations are highly customizable by defining variations. The testing pipeline compares variations with multiple datasets and metrics. We evaluate each configuration on the CLIC and Kodak datasets. We measure the R-D performance, LPIPS, PSNR, MS-SSIM, encoding and decoding latency, and encoding and decoding throughput. We observe the impact of fine-grained design decisions, such as changing the non-linearity block. While the GSDN activation function within the non-linearity block performs worse in small networks, its best performance is achieved in deeper networks. Interestingly, configurations with deeper networks performed slower yet achieved higher visual quality for the same compression rates.We compare the learned image compression models with a fixed codec (BPG) to ensure comparable results. We find that the impact of minor design decisions depends on network size, resulting in vastly different performances.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
benchmarking
en
dc.subject
lossy compression
en
dc.subject
image compression
en
dc.subject
neural compression
en
dc.subject
artificial intelligence
en
dc.subject
software engineering
en
dc.subject
survey
en
dc.title
A Registry and Benchmarking Tool for Lossy Neural Image Compression
en
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2025.124401
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Dominik Ferrari
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
dc.contributor.assistant
Furutanpey, Alireza
-
tuw.publication.orgunit
E194 - Institut für Information Systems Engineering
-
dc.type.qualificationlevel
Diploma
-
dc.identifier.libraryid
AC17468079
-
dc.description.numberOfPages
105
-
dc.thesistype
Diplomarbeit
de
dc.thesistype
Diploma Thesis
en
dc.rights.identifier
In Copyright
en
dc.rights.identifier
Urheberrechtsschutz
de
tuw.advisor.staffStatus
staff
-
tuw.assistant.staffStatus
staff
-
tuw.advisor.orcid
0000-0001-6872-8821
-
tuw.assistant.orcid
0000-0001-5621-7899
-
item.grantfulltext
open
-
item.fulltext
with Fulltext
-
item.openaccessfulltext
Open Access
-
item.languageiso639-1
en
-
item.openairecristype
http://purl.org/coar/resource_type/c_bdcc
-
item.openairetype
master thesis
-
item.cerifentitytype
Publications
-
crisitem.author.dept
E194 - Institut für Information Systems Engineering