Title: Detecting Adversarial Examples Using Surrogate Models
Other Titles: Erkennung von Adversarial Inputs durch Explainable AI
Language: English
Authors: Feldšar, Borna 
Keywords: Machine Learning; Adversarial Examples; Detection
Advisor: Rauber, Andreas 
Assisting Advisor: Mayer, Rudolf 
Issue Date: 2021
Number of Pages: 108
Qualification level: Diploma
Abstract: 
Deep Learning, als Teilbereich des maschinellen Lernens, hat in den letzten Jahren erhebliche Fortschritte erzielt.Durch die zunehmende Integration in Anwendungen, besonders im Gebiet der Bildverarbeitung und Mustererkennung durch Convolutional Neural Networks (CNN), ist es immer stärker in unser tägliches Leben integriert. Es ist jedoch bekannt, dass CNNs zwei Nachteile haben: einerseits sind sie als Black-Box Modell zu betrachten, und andererseits Ihre Anfälligkeit für Täuschungen, durch gut gestaltete, minimale Modifizierungen der Eingabe, so genannten adversarial examples. Es ist daher von großer Bedeutung, Deep Learning Modelle gegen diese Angriffe zu verteidigen. In dieser Diplomarbeit werden erklärbare Modelle, die Vertreter des "klassischen" (nicht tiefen) maschinellen Lernens sind, z.B. Logistic Regression oder Naive Bayes, als Surrogate für CNN-Modelle verwendet. Basierend darauf werden Strategien entwickelt, um Adversarial Examples durch mögliche Abweichungen in der Vorhersage der Surrogate und des CNN-Modells zu identifizieren.Drei unterschiedliche Erkennungsstrategien werden betrachte: Prediction Deviation (Abweichung in der Vorhersage), Distance Deviation (Abweichungen in der Distanz der Vorhersagungen) und Confidence Drop (Abweichungen in der Konfidenz der Vorhersagen). Als Eingabedaten für die Modelle werden drei Merkmalsräume für die untersucht: die ursprünglichen Bilder, extrahierte Deskriptoren ("histogram of oriented gradients" HOG), sowie die Modellaktivierungen im CNN, um die Wirkung des Merkmalsraums der Surrogate zu sehen. Unsere Evaluierung zeigt, dass alle drei Strategien, basierend auf den CNN Aktivierungen, im Vergleich zu den Methoden Feature Squeezing, MagNet, PixelCNN und Subset Scanning in den Datensätzen MNIST, Fashion-MNIST und CIFAR-10 ein Ergebnis auf dem Stand der Technik erzielen können.

Recently deep learning has made significant progress in the broad domain of machine learning. It is integrated into our everyday lives as it is progressively used more in real-world applications, especially Convolutional Neural Networks (CNN) in the image domain. Nevertheless, it is known that CNNs have two downsides: on the one hand, they can be considered as a black-box, and on the other hand, the vulnerability against well crafted small perturbations of the input, i.e adversarial examples. Therefore, it is of major importance to defend Deep Learning models against such attacks. In this thesis, interpretable models that are part of conventional machine learning, e.g. Logistic Regression, Naive Bayes, are utilised as surrogates of the CNN model. Detection strategies are further developed by seeking for a deviation in the prediction of the surrogate and the CNN model in order to determine if the input is adversarial. Therefore, three detection strategies are presented: Prediction Deviation (deviation in the prediction), Distance Deviation (deviation in the distance of the predictions) and Confidence Drop (deviation in the confidence of the predictions). In order to observe the effect of feature space on the surrogates, three feature spaces are considered, i.e. raw images, extracted features ("Histogram of Oriented Gradients" HOG) and the CNN model activations. Our evaluation shows that all three strategies, based on the CNN activations, can achieve state-of-the-art performance compared to Feature Squeezing, MagNet, PixelCNN and Subset Scanning over NN activations on the MNIST, Fashion-MNIST and CIFAR-10 datasets.
URI: https://doi.org/10.34726/hss.2021.83227
http://hdl.handle.net/20.500.12708/16604
DOI: 10.34726/hss.2021.83227
Library ID: AC16117344
Organisation: E194 - Institut für Information Systems Engineering 
Publication Type: Thesis
Hochschulschrift
Appears in Collections:Thesis

Files in this item:

File Description SizeFormat
Detecting Adversarial Examples Using Surrogate Models.pdf2.47 MBAdobe PDFThumbnail
 View/Open
Show full item record

Google ScholarTM

Check


Items in reposiTUm are protected by copyright, with all rights reserved, unless otherwise indicated.