Detecting adversarial examples using surrogate models

Feldšar, Borna

doi:10.34726/hss.2021.83227

Datensatz Zitierlink:

https://doi.org/10.34726/hss.2021.83227
http://hdl.handle.net/20.500.12708/16604

Titel:

Detecting adversarial examples using surrogate models

Zitat:

Feldšar, B. (2020). Detecting adversarial examples using surrogate models [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2021.83227

reposiTUm-DOI:

10.34726/hss.2021.83227

CatalogPlus:

AC16117344

Publikationstyp:

Hochschulschrift - Diplomarbeit

Sprache:

Englisch

Autor_innen:

Feldšar, Borna

Betreuer_in:

Rauber, Andreas

Mitbetreuer_innen:

Mayer, Rudolf

Organisationseinheit:

E194 - Institut für Information Systems Engineering

Datum (veröffentlicht):

2020

Umfang:

154

Keywords:

Machine Learning; Adversarial Examples; Detection

Abstract:

Recently deep learning has made significant progress in the broad domain of machine learning. It is integrated into our everyday lives as it is progressively used more in real-world applications, especially Convolutional Neural Networks (CNN) in the image domain. Nevertheless, it is known that CNNs have two downsides: on the one hand, they can be considered as a black-box, and on the other hand, the vulnerability against well crafted small perturbations of the input, i.e adversarial examples. Therefore, it is of major importance to defend Deep Learning models against such attacks. In this thesis, interpretable models that are part of conventional machine learning, e.g. Logistic Regression, Naive Bayes, are utilised as surrogates of the CNN model. Detection strategies are further developed by seeking for a deviation in the prediction of the surrogate and the CNN model in order to determine if the input is adversarial. Therefore, three detection strategies are presented: Prediction Deviation (deviation in the prediction), Distance Deviation (deviation in the distance of the predictions) and Confidence Drop (deviation in the confidence of the predictions). In order to observe the effect of feature space on the surrogates, three feature spaces are considered, i.e. raw images, extracted features ("Histogram of Oriented Gradients" HOG) and the CNN model activations. Our evaluation shows that all three strategies, based on the CNN activations, can achieve state-of-the-art performance compared to Feature Squeezing, MagNet, PixelCNN and Subset Scanning over NN activations on the MNIST, Fashion-MNIST and CIFAR-10 datasets.

Deep Learning, als Teilbereich des maschinellen Lernens, hat in den letzten Jahren erhebliche Fortschritte erzielt. Durch die zunehmende Integration in Anwendungen, besonders im Gebiet der Bildverarbeitung und Mustererkennung durch Convolutional Neural Networks (CNN), ist es immer stärker in unser tägliches Leben integriert. Es ist jedoch bekannt, dass CNNs zwei Nachteile haben: einerseits sind sie als Black-Box Modell zu betrachten, und andererseits Ihre Anfälligkeit für Täuschungen, durch gut gestaltete, minimale Modifizierungen der Eingabe, so genannten adversarial examples. Es ist daher von großer Bedeutung, Deep Learning Modelle gegen diese Angriffe zu verteidigen. In dieser Diplomarbeit werden erklärbare Modelle, die Vertreter des "klassischen" (nicht tiefen) maschinellen Lernens sind, z.B. Logistic Regression oder Naive Bayes, als Surrogate für CNN-Modelle verwendet. Basierend darauf werden Strategien entwickelt, um Adversarial Examples durch mögliche Abweichungen in der Vorhersage der Surrogate und des CNN-Modells zu identifizieren. Drei unterschiedliche Erkennungsstrategien werden betrachte: Prediction Deviation (Abweichung in der Vorhersage), Distance Deviation (Abweichungen in der Distanz der Vorhersagungen) und Confidence Drop (Abweichungen in der Konfidenz der Vorhersagen). Als Eingabedaten für die Modelle werden drei Merkmalsräume für die untersucht: die ursprünglichen Bilder, extrahierte Deskriptoren ("histogram of oriented gradients" HOG), sowie die Modellaktivierungen im CNN, um die Wirkung des Merkmalsraums der Surrogate zu sehen. Unsere Evaluierung zeigt, dass alle drei Strategien, basierend auf den CNN Aktivierungen, im Vergleich zu den Methoden Feature Squeezing, MagNet, PixelCNN und Subset Scanning in den Datensätzen MNIST, Fashion-MNIST und CIFAR-10 ein Ergebnis auf dem Stand der Technik erzielen können.

Weitere Information:

Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers

Lizenz:

Urheberrechtsschutz

Enthalten in den Sammlungen:

Thesis