Optimizing energy efficiency in multimodal learning for automated vehicle damage evaluation

Sabanovic, Ahmed

doi:10.34726/hss.2025.132145

Record link:

https://doi.org/10.34726/hss.2025.132145
http://hdl.handle.net/20.500.12708/224554

Title:

Optimizing energy efficiency in multimodal learning for automated vehicle damage evaluation

Citation:

Sabanovic, A. (2025). Optimizing energy efficiency in multimodal learning for automated vehicle damage evaluation [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.132145

reposiTUm DOI:

10.34726/hss.2025.132145

CatalogPlus:

AC17748600

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Sabanovic, Ahmed

Advisor:

Brandic, Ivona

Co-advisor:

Maliakel, Paul Joe

Organisational Unit:

E191 - Institut für Computer Engineering

Date (published):

2025

Number of Pages:

Keywords:

vehicle damage assessment; vision-language models; fine-tuning; energy-efficient AI; dataset curation; insurance automation; model benchmarking; multimodal corpus

Abstract:

Fahrzeugkollisionen verursachen jedes Jahr über eine Million Todesfälle und führen zu erheblichen wirtschaftlichen Verlusten. Dennoch verlassen sich Versicherungsgesellschaften weiterhin auf manuelle, arbeitsintensive Schadensbewertungsprozesse, die langsam,fehleranfällig und schwer skalierbar sind. Daher ist eine automatisierte und genaue Bewertung von Fahrzeugschäden entscheidend, um die Bearbeitungszeit von Schadensfällen zu verkürzen, die Konsistenz der Schätzungen zu verbessern und die Kosten in derKfz-Versicherungsbranche zu kontrollieren.Diese Arbeit geht diese Herausforderung an, indem sie die Bewertung von Fahrzeugschäden als Benchmark-Aufgabe für die Bewertung von Feinabstimmungsstrategien für modernste Vision-Language-Modelle (VLMs) unter strengen Daten- und Energiebeschränkungen neu definiert. Ein multimodaler Korpus aus Fahrzeugbildern und textuellen Schadensbeschreibungen wird zusammengestellt und sowohl in roher als auch in vollständig vorverarbeiteter Form bereitgestellt, wobei letztere Qualitätsfilter wie Unschärferkennung, Belichtungssteuerung,Kontrastschwellenwert und Entfernung von Nahe-Duplikaten enthält. Fünf hochmoderne kompakte VLM-Architekturen, die für den Einsatz mit geringen Ressourcen entwickelt wurden (LLaVA, Qwen-VL, Bunny, Phi und SmolVLM), werden anhand eine srepräsentativen Testsatzes bewertet. Anschließend wird das stärkste Basismodell mithilfe mehrerer Strategien domänenspezifisch fein abgestimmt. Die daraus resultierenden Kompromissezwischen Energieverbrauch und Leistung werden mathematisch modelliert, umdie effizienteste Konfiguration zu ermitteln.Experimente zeigen, dass eine gezielte Feinabstimmung auf einem sorgfältig zusammengestellten Datensatz zu erheblichen Verbesserungen der praktischen Anwendbarkeit führt.Konkret erzielte die optimierte Modellkonfiguration eine Reduzierung des Energieverbrauchs für die Inferenz um 58,7% im Vergleich zur Basislinie, während gleichzeitig der F1-Score von 61,05% auf 68,35% gesteigert wurde. Im Vergleich zu einem naiv zusammengestellten Datensatz führte der kuratierte Korpus zu einer überlegenen Vorhersageleistung bei einer Reduzierung des Trainingsenergieverbrauchs um 19,5%. Darüber hinaus zeigt eine Break-even-Analyse, dass sich die Energiekosten für die Feinabstimmung nach der Verarbeitung von etwa 48.000 Bildern amortisieren. Diese Ergebnisse deuten daraufhin, dass eine energieeffiziente Feinabstimmung kompakter VLMs eine automatisierte Fahrzeugschadensbewertung für ressourcenbeschränkte Versicherungsabläufe rentabel machen kann.

Vehicle collisions cause over a million deaths each year and generate substantial economic losses. However, insurance companies continue to rely on manual and labor-intensive damage appraisal workflows that are slow, error-prone, and difficult to scale. Thus,an automated and accurate assessment of vehicle damage is crucial to reducing claim processing time, improving the consistency of estimates, and controlling costs in the automotive insurance industry.This thesis tackles this challenge by reframing vehicle damage evaluation as a benchmark task to evaluate fine-tuning strategies in state-of-the-art vision-language models (VLMs) under strict data and energy constraints. A multimodal corpus of vehicle images and textual damage descriptions is assembled and provided in both raw and fully preprocessed forms, the latter in corporating quality filters such as blur detection, exposure control,contrast thresholding, and near-duplicate removal. Five state-of-the-art compact VL Marchitectures, designed for low-resource deployment (LLaVA, Qwen-VL, Bunny, Phiand SmolVLM) are benchmarked on a representative test set, after which the strongest baseline model undergoes domain-specific fine-tuning using multiple strategies. The resulting energy-performance trade-offs were mathematically modeled to identify themost efficient configuration.Experiments demonstrate that targeted fine-tuning on a carefully curated dataset yields substantial improvements in practical utility. Specifically, the optimized model configuration achieved a 58.7% reduction in inference energy consumption compared to thebaseline, while simultaneously increasing the F1-score from 61.05% to 68.35%. Comparedto a naively constructed dataset, the curated corpus resulted in superior predictive performancewhile reducing training energy by 19.5%. Furthermore, a break-even analysisreveals that the energy cost of fine-tuning is recovered after processing approximately48,000 images. These results indicate that energy-efficient fine-tuning of compact VLMscan make automated vehicle damage assessment viable for resource-constrained insurance workflows.

License:

In Copyright

Appears in Collections:

Thesis