<div class="csl-bib-body">
<div class="csl-entry">Jabary, Y. (2025). <i>Rethinking Adversarial Examples</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.124993</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2025.124993
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/216645
-
dc.description
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft
-
dc.description
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers
-
dc.description.abstract
Traditionell wurden adversariale Beispiele als unmerkliche Störungen definiert, die tiefe neuronale Netze täuschen. Diese Arbeit stellt diese Sichtweise infrage, indem sie uneingeschränkte adversariale Beispiele untersucht – eine breitere Klasse von Manipulationen, die die Modellsicherheit gefährden können, während die Semantik erhalten bleibt. Durch umfangreiche Experimente leisten wir drei wichtige Beiträge: Erstens zeigen wir durch eine umfassende Untersuchung der aktuellen Forschung, dass die standardmäßige Beschränkung der Unmerklichkeit für die Charakterisierung realer adversarialer Bedrohungen unzureichend ist. Zweitens entwickeln wir eine neuartige und rechnerisch effiziente Methode zur Erzeugung adversarialer Beispiele mithilfe geometrischer Masken, die von hCAPTCHA Herausforderungen inspiriert sind. Unser Ansatz erzeugt adversariale Beispiele, die (1) effektiv, (2) zwischen Modellen übertragbar und (3) im Entscheidungsraum des Modells besser nachvollziehbar sind – wobei vergleichbare Fehlklassifizierungsraten wie bei bestehenden Techniken erreicht werden, während deutlich weniger Rechenleistung erforderlich ist. Schließlich untersuchen wir die Verbesserung der Modellrobustheit durch die Erstellung von Ensembles aus intermediären ResNet-Schichten unter Verwendung linearer Sonden, kombiniert mit naturinspiriertem Rauschen während des Trainings. Während dieser architektonische Ansatz vielversprechend ist, stellen wir fest, dass das Erreichen einer “kostenfreien Robustheit” ohne adversariales Training nicht möglich ist.Diese Arbeit erweitert unser Verständnis von adversarialen Beispielen über Pixel-Raum-Störungen hinaus und bietet praktische Werkzeuge sowohl für deren Erzeugung als auch für die Verteidigung gegen sie. Unsere Ergebnisse unterstreichen die Notwendigkeit, unser Verständnis und unsere Bewertung der adversarialen Robustheit in maschinellen Lernsystemen zu überdenken.
de
dc.description.abstract
Traditionally, adversarial examples have been defined as imperceptible perturbations that fool deep neural networks. This thesis challenges this view by examining unrestricted adversarial examples – a broader class of manipulations that can compromise model security while preserving semantics. Through extensive experiments, we make three key contributions: First, we demonstrate that the standard imperceptibility constraint is insufficient for characterizing real-world adversarial threats through a comprehensive survey of current research. Second, we develop a novel and computationally efficient method for generating adversarial examples using geometric masks inspired by hCAPTCHA challenges. Our approach creates adversarial examples that are (1) effective, (2) transferable between models and (3) more traceable in the model’s decision space – achieving comparable misclassification rates to existing techniques while requiring significantly less compute. Finally, we investigate improving model robustness by creating ensembles from intermediary ResNet layers using linear probes, combined with nature-inspired noise during training. While this architectural approach shows promise, we find that achieving “zero-cost robustness” remains unattainable without adversarial training. This work advances our understanding of adversarial examples beyond pixel-space perturbations and provides practical tools for both generating and defending against them. Our findings highlight the need to rethink how we conceptualize and evaluate adversarial robustness in machine learning systems.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Zuverlässigkeit
de
dc.subject
Robustheit
de
dc.subject
Ausrichtung
de
dc.subject
Überwachung
de
dc.subject
Systematische Sicherheit
de
dc.subject
Adversariales Maschinelles Lernen
de
dc.subject
Maschinelles Lernen für Sicherheit
de
dc.subject
Turing-Tests
de
dc.subject
Reliability
en
dc.subject
Robustness
en
dc.subject
Alignment
en
dc.subject
Monitoring
en
dc.subject
Systematic Safety
en
dc.subject
Adversarial Machine Learning
en
dc.subject
Machine Learning for Security
en
dc.subject
Turing Testing
en
dc.title
Rethinking Adversarial Examples
en
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2025.124993
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Yahya Jabary
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
dc.contributor.assistant
Furutanpey, Alireza
-
tuw.publication.orgunit
E194 - Institut für Information Systems Engineering
-
dc.type.qualificationlevel
Diploma
-
dc.identifier.libraryid
AC17572857
-
dc.description.numberOfPages
49
-
dc.thesistype
Diplomarbeit
de
dc.thesistype
Diploma Thesis
en
dc.rights.identifier
In Copyright
en
dc.rights.identifier
Urheberrechtsschutz
de
tuw.advisor.staffStatus
staff
-
tuw.assistant.staffStatus
staff
-
tuw.advisor.orcid
0000-0001-6872-8821
-
tuw.assistant.orcid
0000-0001-5621-7899
-
item.openairetype
master thesis
-
item.cerifentitytype
Publications
-
item.grantfulltext
open
-
item.languageiso639-1
en
-
item.openairecristype
http://purl.org/coar/resource_type/c_bdcc
-
item.openaccessfulltext
Open Access
-
item.fulltext
with Fulltext
-
crisitem.author.dept
E194-02 - Forschungsbereich Distributed Systems
-
crisitem.author.parentorg
E194 - Institut für Information Systems Engineering