Blasko, D. (2024). Multimodal modeling of chest X-rays [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.118782
Deep learning; Computer vision; Multimodality; Radiology; Reasoning; Chest X-rays; Vision-language models; Language models; Medical image processing
en
Abstract:
Röntgenaufnahmen des Brustkorbs sind ein zentrales Instrument in der medizinischen Diagnostik, doch ihre Auswertung stellt erhebliche Herausforderungen dar, die den Einsatz zuverlässiger computerunterstützter Verfahren notwendig machen. Diese Studie erforscht die Anwendung von Deep Learning zur Verbesserung der Interpretierbarkeit und Genauigkeit der Diagnosen von Brust-Röntgenbildern durch die Erzeugung von Erklärungen in natürlicher Sprache (NLEs). Bestehende einstufige neuronale Netzwerke erweisen sich zwar als effektiv, jedoch mangelt es ihnen oft an Erklärbarkeit, was ihre Akzeptanz in der Klinik beeinträchtigt. Zur Lösung dieses Problems stellen wir ein innovatives "Explain-then-Predict"-Modell vor, das die BLIP-2-Architektur mit einer Q-former-Komponente kombiniert, um NLEs während des diagnostischen Vorgangs zu erstellen und zu evaluieren. Im Unterschied zu bisherigen Methoden, die nachträglich Erklärungen liefern, ohne diagnostische Ergebnisse zu beeinflussen, nutzt unser Modell die NLEs, um seine Vorhersagen zu untermauern und zu rechtfertigen, wodurch die Erklärungen mit dem klinischen Denken harmonisiert und das Vertrauen in die automatisierte Diagnostik gestärkt wird.Unser primäres Forschungsziel ist die Evaluierung, inwiefern ein Modell das Bild-Text-Kontrastlernen einsetzen kann, um treue NLEs zu generieren, die unmittelbar die Klassifikationsgenauigkeit verbessern. Wir entwickeln einen multimodalen Ansatz, der für jedes diagnostische Etikett NLEs erzeugt, die anschließend vom Q-former hinsichtlich ihrer Relevanz und Genauigkeit im Vergleich zum zugehörigen Röntgenbild bewertet werden. Dieses Modell wird end-to-end auf dem MIMIC-NLE-Datensatz trainiert und verwendet ein innovatives Trainingsregime, das die Erstellung von Erklärungen sowie deren Bewertungsgenauigkeit verbessert.Empirische Ergebnisse belegen, dass unser Ansatz die Leistung der besten aktuellen Methoden zur Brust-Röntgenklassifikation erreicht und gleichzeitig Erklärungen bietet, die intrinsisch mit den diagnostischen Ergebnissen verknüpft sind. Dies fördert nicht nur ein tieferes Verständnis der Entscheidungsfindung des Modells, sondern steigert auch den praktischen Nutzen des Modells in realen klinischen Einsatzgebieten. Die Beiträge dieser Arbeit weisen auf eine vielversprechende Richtung für zukünftige Forschungen in der medizinischen Bildgebung hin, mit einem Schwerpunkt auf der Integration von aussagekräftigen Modellen, die sowohl die Interpretierbarkeit als auch die Genauigkeit diagnostischer KI-Systeme verbessern.
de
Chest X-rays are a foundational tool for medical diagnostics, and yet interpreting them takes radiologists' time and is subject to challenges, prompting the development of reliable computer-assisted methods. This thesis investigates how interpretability of deep-learning-based chest X-ray diagnostics can be improved without compromising accuracy. It does so through the generation and utilization of natural language explanations (NLEs). Existing single-stage neural networks are clinically effective but often lack explainability, which limits their clinical adoption. To address this, we propose a novel "explain-then-predict" approach that leverages the BLIP-2 architecture and its Q-former component to generate NLEs and evaluate their relevance during the diagnostic process. Unlike previous methods that generate post-hoc explanations that do not affect the diagnostic outcomes, our solution incorporates the generated NLEs to guide its predictions, aligning explanations with clinical reasoning and enhancing explanation faithfulness by design.Our work evaluates the extent to which an NLE-generating model can leverage image-text contrastive learning to measure how relevant a generated NLE is to an X-ray. We introduce a multimodal framework that generates NLEs for each diagnostic label, which are then assessed for relevance against the corresponding X-ray image by the Q-former. This model is further trained end-to-end to refine both the generation of explanations and the diagnosis accuracy.Empirical results show that our approach matches state-of-the-art chest X-ray classification performance, while also providing explanations that are intrinsically tied to the diagnostic output. This allows to get an understanding of the model's outputs while enhancing its utility in clinical settings. The contributions of this work suggest a promising direction for future research in computer-assisted medical imaging analysis, focusing on the integration of explanatory models that can enhance both the interpretability and accuracy of such deep-learning-based diagnostic systems.