Tschoner, M. (2025). A11y-Bench: Can Language Models Resolve Accessibility Issues? [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.131462
E194 - Institut für Information Systems Engineering
-
Date (published):
2025
-
Number of Pages:
79
-
Keywords:
Web; Benchmark; Accessibility; Large Language Models
en
Abstract:
Gerne, hier ist der Text ohne die LaTeX-spezifischen Befehle und Formatierungen:Die Barrierefreiheit des Webs bleibt eine Herausforderung: Über 94% aller Startseiten verstoßen weiterhin gegen Standards wie WCAG 2.2 (Web Content Accessibility Guidelines), wodurch Millionen von Nutzerinnen und Nutzern benachteiligt werden. Diese Diplomarbeit untersucht, ob Large Language Models (LLMs) solche Barrierefreiheitsprobleme in komplexen Webprojekten autonom beheben können. Wir stellen A11y-Bench vor, ein neuartiges Benchmark-Datenset mit 51 realen Fällen von Barrierefreiheitsfehlern und deren Behebungen (extrahiert aus drei populären Open-Source-Repositorien), das vielfältige Probleme abdeckt, etwa fehlende ARIA-Labels, UI-Elemente mit zu geringem Kontrast und andere WCAG-Verstöße. Jede Instanz enthält den ursprünglichen fehlerhaften Code sowie die zugehörige Korrektur und ermöglicht so eine systematische Evaluation.Wir entwickeln eine vollständig automatisierte End-to-End-Evaluationspipeline auf Basis von Multi-SWE-Bench, die von LLMs generierte Patches in containerisierten Umgebungen einsetzt und ihre Gültigkeit über projektspezifische Test-Suiten überprüft. Mit diesem Framework evaluieren wir drei moderne, offene LLMs auf A11y-Bench mithilfe des MagentLess-Tools. Nur 1 von 51 Fällen (~2%) wurde von einem der Modelle vollständig behoben. Daher konzentriert sich die Analyse auf die Patch-Generierung selbst. Die Modelle erzeugten häufig nur Teilkorrekturen oder führten Regressionen ein und hatten insbesondere Schwierigkeiten mit kontextübergreifenden Frontend-Dateien. Unsere Analyse identifiziert typische Fehlermuster von LLMs (z. B. das Einfügen irrelevanter Änderungen oder das Übersehen einzelner Probleminstanzen).Die Diplomarbeit leistet einen Beitrag durch (1) das A11y-Bench-Datenset und eine offene Evaluationspipeline, (2) Basis-Ergebnisse zur LLM-Leistung bei der Behebung von Barrierefreiheitsproblemen und (3) Erkenntnisse, die zukünftige Forschung im Bereich der Web-Barrierefreiheit anleiten sollen.
de
Web accessibility remains a challenge, over 94% of homepages still violate standards like WCAG (Web Content Accessibility Guidelines) 2.2, leaving millions of users at a disadvantage. This thesis investigates whether Large Language Models (LLMs) can autonomously fix such accessibility issues in complex web projects. We introduce A11y-Bench, a novel benchmark dataset of 51 real-world accessibility bug-fix instances (mined from 3 popular open-source repositories) covering diverse issues like missing ARIA labels, low-contrast UI elements, and other WCAG violations. Each instance includes the original faulty code and the fix, enabling evaluation. We develop an end-to-end, automated evaluation pipeline based on Multi-SWE-Bench that deploys LLM-generated patches in containerized environments and validates them via project test suites. Using this framework, we evaluate three state-of-the-art open weight LLMs on A11y-Bench with the MagentLess tool. Only 1 of 51 issues (~2%) was fully resolved by any model. We therefore focused the analysis on the patch generation itself. The models often produced partial fixes or introduced regressions, struggling especially with multi-file frontend context. Our analysis highlights common LLM failure modes (e.g., hallucinating irrelevant edits, missing instances of a problem). The thesis contributes (1) the A11y-Bench dataset and open-source evaluation pipeline, (2) baseline LLM performance results for accessibility repair, and (3) insights to guide future research on web accessibility.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers