Traditionell wurden adversariale Beispiele als unmerkliche Störungen definiert, die tiefe neuronale Netze täuschen. Diese Arbeit stellt diese Sichtweise infrage, indem sie uneingeschränkte adversariale Beispiele untersucht – eine breitere Klasse von Manipulationen, die die Modellsicherheit gefährden können, während die Semantik erhalten bleibt. Durch umfangreiche Experimente leisten wir drei wichtige Beiträge: Erstens zeigen wir durch eine umfassende Untersuchung der aktuellen Forschung, dass die standardmäßige Beschränkung der Unmerklichkeit für die Charakterisierung realer adversarialer Bedrohungen unzureichend ist. Zweitens entwickeln wir eine neuartige und rechnerisch effiziente Methode zur Erzeugung adversarialer Beispiele mithilfe geometrischer Masken, die von hCAPTCHA Herausforderungen inspiriert sind. Unser Ansatz erzeugt adversariale Beispiele, die (1) effektiv, (2) zwischen Modellen übertragbar und (3) im Entscheidungsraum des Modells besser nachvollziehbar sind – wobei vergleichbare Fehlklassifizierungsraten wie bei bestehenden Techniken erreicht werden, während deutlich weniger Rechenleistung erforderlich ist. Schließlich untersuchen wir die Verbesserung der Modellrobustheit durch die Erstellung von Ensembles aus intermediären ResNet-Schichten unter Verwendung linearer Sonden, kombiniert mit naturinspiriertem Rauschen während des Trainings. Während dieser architektonische Ansatz vielversprechend ist, stellen wir fest, dass das Erreichen einer “kostenfreien Robustheit” ohne adversariales Training nicht möglich ist.Diese Arbeit erweitert unser Verständnis von adversarialen Beispielen über Pixel-Raum-Störungen hinaus und bietet praktische Werkzeuge sowohl für deren Erzeugung als auch für die Verteidigung gegen sie. Unsere Ergebnisse unterstreichen die Notwendigkeit, unser Verständnis und unsere Bewertung der adversarialen Robustheit in maschinellen Lernsystemen zu überdenken.
de
Traditionally, adversarial examples have been defined as imperceptible perturbations that fool deep neural networks. This thesis challenges this view by examining unrestricted adversarial examples – a broader class of manipulations that can compromise model security while preserving semantics. Through extensive experiments, we make three key contributions: First, we demonstrate that the standard imperceptibility constraint is insufficient for characterizing real-world adversarial threats through a comprehensive survey of current research. Second, we develop a novel and computationally efficient method for generating adversarial examples using geometric masks inspired by hCAPTCHA challenges. Our approach creates adversarial examples that are (1) effective, (2) transferable between models and (3) more traceable in the model’s decision space – achieving comparable misclassification rates to existing techniques while requiring significantly less compute. Finally, we investigate improving model robustness by creating ensembles from intermediary ResNet layers using linear probes, combined with nature-inspired noise during training. While this architectural approach shows promise, we find that achieving “zero-cost robustness” remains unattainable without adversarial training. This work advances our understanding of adversarial examples beyond pixel-space perturbations and provides practical tools for both generating and defending against them. Our findings highlight the need to rethink how we conceptualize and evaluate adversarial robustness in machine learning systems.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers