Bias in medical recommendations: Prompting vs. fine-tuning of large language models

Pavlovic, Daha

doi:10.34726/hss.2026.131812

DC Field

Value

Language

dc.contributor.advisor

Neidhardt, Julia

dc.contributor.author

Pavlovic, Daha

dc.date.accessioned

2026-05-13T14:21:32Z

dc.date.issued

2026

dc.date.submitted

2026-04

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Pavlovic, D. (2026). <i>Bias in medical recommendations: Prompting vs. fine-tuning of large language models</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2026.131812</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2026.131812

dc.identifier.uri

http://hdl.handle.net/20.500.12708/228089

dc.description

Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft

dc.description.abstract

Große Sprachmodelle (Large Language Models, LLMs) werden zunehmend für die Bereitstellung medizinischer Beratung eingesetzt, einschließlich Diagnosevorschlägen, Behandlungsplänen und Empfehlungen für die Gesundheitsversorgung. Da sich immer mehr Menschen bei ersten medizinischen Beratungen auf LLMs verlassen – entweder vor dem Besuch eines Arztes oder in manchen Fällen anstelle einer professionellen Behandlung – nimmt die Abhängigkeit von diesen KI-Systemen stetig zu. Dies gibt Anlass zur Sorge hinsichtlich potenzieller Verzerrungen in den Modellergebnissen, insbesondere solcher, die mit der ethnischen Zugehörigkeit zusammenhängen. Verzerrungen in medizinischen Empfehlungen können schwerwiegende Folgen in der Praxis haben. Insbesondere können ungleiche Behandlungsempfehlungen aufgrund der ethnischen Zugehörigkeit von Patientinnen und Patienten bestehende Ungleichheiten im Gesundheitswesen verschärfen, zu unangemessener medizinischer Beratung führen und letztendlich die Behandlungsergebnisse beeinträchtigen. Daher ist es für die Sicherheit und Vertrauenswürdigkeit von KI-Systemen im Gesundheitswesen entscheidend, dass LLMs unvoreingenommene medizinische Beratung liefern. Diese Masterarbeit zielt darauf ab, auf den dringenden Bedarf an Mechanismen aufmerksam zu machen, die rassistische Vorurteile in medizinischen Anwendungen großer Sprachmodelle erkennen, messen und abschwächen können. Untersucht wird, inwiefern Feinabstimmung und Prompting als Mechanismen zur Steuerung des Modellverhaltens diese Vorurteile beeinflussen und ob ein Mechanismus effektiver als der andere ist, um Vorurteile zu reduzieren und letztendlich zu inklusiveren Empfehlungen im Gesundheitswesen beizutragen.

dc.description.abstract

A significant use case for large language models (LLMs) is the provision of medical advice, including diagnostic suggestions, treatment plans and healthcare recommendations. As individuals increasingly rely on LLMs for initial medical consultations either before visiting a healthcare professional or, in some cases, instead of seeking professional care, the dependency on these AI systems continues to increase. This raises concerns about the potential biases embedded in model outputs, particularly biases related to race. Bias in medical recommendations can have serious real-world consequences. In particular, unequal treatment recommendations based on a patient’s race may worsen existing healthcare disparities, lead to inappropriate medical advice, and ultimately affect patient outcomes. Therefore, ensuring that LLMs provide unbiased medical guidance is needed for both the safety and trustworthiness of AI in healthcare. This thesis aims to draw attention to the strong need for mechanisms that can detect, measure and mitigate racial bias in the medical applications of LLMs. The goal is to determine how fine-tuning and prompting, as mechanisms for shaping model behaviour, influence these biases, and whether one mechanism is more effective than the other at reducing biases, ultimately contributing to more inclusive healthcare recommendations.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

Large Language Models

dc.subject

Fairness

dc.subject

Racial Bias

dc.subject

Healthcare AI

dc.subject

Bias Mitigation

dc.subject

Prompt Engineering

dc.subject

Chain-of-Thought Prompting

dc.subject

Meta Prompting

dc.subject

Few-shot Learning

dc.subject

Fine-Tuning

dc.title

Bias in medical recommendations: Prompting vs. fine-tuning of large language models

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2026.131812

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Daha Pavlovic

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

dc.contributor.assistant

Krüpl-Sypien, Bernhard

tuw.publication.orgunit

E194 - Institut für Information Systems Engineering

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC17861990

dc.description.numberOfPages

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

tuw.assistant.staffStatus

staff

tuw.advisor.orcid

0000-0001-7184-1841

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.fulltext

with Fulltext

item.languageiso639-1

item.openairetype

master thesis

item.grantfulltext

open

item.mimetype

application/pdf

item.openaccessfulltext

Open Access

item.cerifentitytype

Publications

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(1.15 MB)

In Copyright

Show simple item record

Page view(s)

checked on May 13, 2026

Download(s)

checked on May 13, 2026

Google Scholar^TM

Check

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM