GS-VQA: Zero-shot neural-symbolic visual question answering with vision-language models

Hadl, Jan

doi:10.34726/hss.2023.109680

Record link:

https://doi.org/10.34726/hss.2023.109680
http://hdl.handle.net/20.500.12708/187993

Title:

GS-VQA: Zero-shot neural-symbolic visual question answering with vision-language models

Citation:

Hadl, J. (2023). GS-VQA: Zero-shot neural-symbolic visual question answering with vision-language models [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2023.109680

reposiTUm DOI:

10.34726/hss.2023.109680

CatalogPlus:

AC16932039

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Hadl, Jan

Advisor:

Eiter, Thomas

Co-advisor:

Oetsch, Johannes

Organisational Unit:

E192 - Institut für Logic and Computation

Date (published):

2023

Number of Pages:

Keywords:

Answer Set Programming; Visual Question Answering; Neural-Symbolic Computation; Vision-Language Models; Zero-Shot Learning; GQA Dataset

Abstract:

Visual Question Answering (VQA) stellt Machine Learning (ML) Systeme vor die Aufgabe,eine über ein Bild gestellte Frage in natürlicher Sprache zu beantworten. Um diese Aufgabe zu erfüllen, benötigen ML Systeme nicht nur ein gemeinsames Verständnis von Bild- und Textdaten, sondern müssen auch in der Lage sein, komplexe Abfolgen von Gedankenschritten durchzuführen. Neural-Symbolic Ansätze für VQA nutzen DeepLearning zur visuellen Wahrnehmung und erstellen eine symbolische Repräsentation der Information, die im Eingabe-Bild und der Eingabe-Frage enthalten ist. Auf Basis dieser Repräsentation wird Reasoning rein symbolisch durchgeführt, um die Antwort auf die Eingabe-Frage herzuleiten. Zu den Vorteilen von Neural-Symbolic Ansätzen gehören ihre Nachvollziehbarkeit, ihre Konsistenz, und ihre Erweiterbarkeit dank ihres modularen Aufbaus. Aktuelle VQA Ansätze, die Reasoning rein symbolisch durchführen, haben jedoch die Limitierung, dass die von ihnen zur visuellen Wahrnehmung verwendeten MLModelle für den aktuell verwendeten Datensatz trainiert oder fine-tuned werden müssen.Zur Erforschung eines Ansatzes, mit dem diese Limitierung beseitigt werden kann,designen und implementieren wir die GS-VQA Pipeline für Neural-Symbolic VQA amGQA Datensatz, einem aktuellen und generalistischen Datensatz mit detailreichen Bildern und vielseitigen Fragen mit einer großen Anzahl an möglichen Antworten. Die Pipeline baut auf den jüngsten Erfolgen auf, die Architekturen und Trainings-Strategien von Large Language Models (LLMs) auf multi-modale Vision Language Models (VLMs) anzuwenden. Durch die effiziente und effektive Nutzung dieser VLMs ist GS-VQA in der Lage, VQA zero-shot – also ohne das Training oder Fine-Tuning von Modellen am behandelten Datensatz – durchzuführen. GS-VQA kann 39.50% der Fragen aus GQAstest-dev Set korrekt beantworten. Im Vergleich dazu erreicht das aktuell beste zero-shot Modell für VQA am selben Set eine Accuracy von 49.00%. Wir implementieren und evaluieren zudem mehrere Erweiterungen zur GS-VQA Pipeline, die den Prozentsatz der korrekt beantworteten Fragen auf 40.55% erhöhen.

Visual Question Answering (VQA) presents the following task to machine learning (ML) systems: given an image and a natural-language question about the image, provide an accurate natural-language answer. Performing this task requires not just a joint understanding of vision and text, but also the ability to follow complex chains of reasoning operations. Neural-symbolic approaches to VQA use deep learning for perception,producing a symbolic representation of the information contained within the input imageand question, and then perform reasoning on this representation purely symbolically.These approaches are able to reason transparently, behave consistently, and be extended easily due to their compositional structure. However, current VQA pipelines that perform reasoning purely symbolically require the training of purpose-built models for visual perception on the dataset at hand.To explore a way to remove this limitation, we design and implement the GS-VQA pipeline for neural-symbolic VQA on GQA, a challenging and generalist dataset with images depicting complex visual scenes, and diverse questions with a large number of possible answers. The pipeline builds on the recent successes in adapting the model architectures and training regimes of large language models (LLMs) to multi-modal vision-languagemodels (VLMs). By using these VLMs efficiently and effectively, GS-VQA is able to perform VQA in a zero-shot manner, that is, without the training or fine-tuning of models to the current dataset. Of the questions in the test-dev set of GQA, GS-VQA is able toanswer 39.50% correctly, compared to the 49.00% achieved by the current best zero-shot approach for GQA. We also implement and evaluate multiple extensions to the core pipeline architecture, which improve the answer accuracy further to 40.55%.

License:

In Copyright

Appears in Collections:

Thesis