Jankovic, A. (2021). Comparison and evaluation of the attacks and defenses against adversarial attacks [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2021.73829
In den letzten Jahren hat Deep Learning den Bereich des maschinellen Lernens dominiert und konventionelle Techniken in Bereichen wie Sprach-, Bild- und Texterkennung übertroffen. Diese Domänen haben eine sehr große praktische Bedeutung, weshalb Deep Learning auch viel Aufmerksamkeit erhält. Dies hat zu Anwendungen von Deep Learning Techniken bei sicherheitskritischen Aufgaben geführt. Neural Networks sind jedoch anfällig für “adversarial” Beispiele, gut ausgearbeitete kleine Anpassung der Eingabe. Daher ist die Frage der Widerstandsfähigkeit und Sicherheit von Deep Learning Modellen zu einem wichtigen Thema geworden.In dieser Arbeit werden mehrere state-of-the-art white-box- und black-box Angriffe, wie Carlini und Wagner L2 and L∞, HopSkipJump und Universal Perturbations, gegen state-of-the-art Convolutional Neural Networks (CNN) in der Bilderkennungsdomäne unter verschiedenen Zieleinstellungen verglichen und bewertet. Verschiedene Abwehrtechniken, wie zum Beispiel “adversarial” Training und Pre-processing Abwehr, werden gegen solche Angriffe verwendet, um die Verbesserung der Widerstandsfähigkeit der CNNs zu bewerten. Darüber hinaus wird eine Kombination dieser Abwehrmechanismen getestet, in der Hoffnung, neue Abwehrmechanismen mit einer erhöhten Widerstandsfähigkeit zu bekommen.Die Experimente zeigen, dass der Einsatz von Abwehrmechanismen notwendig ist, um CNNs eine höhere Widerstandsfähigkeit zu verleihen, insbesondere in der ungezielten Zieleinstellung.Die Auswertung der Ergebnisse zeigt, dass “adversarial” Training im Vergleich zu Pre-Processing Abwehr ähnliche Widerstandsfähigkeit bietet, jedoch mit dem Preis einer geringeren Genauigkeit des Modells auf den Originaldaten. Die Pre-Processing Techniken waren dagegen sehr effektiv gegen “adversarial” Angriffe, die “adversarial” Beispiele erzeugten, die den Originalbildern, gemessen in der Metrik L2, sehr nahe kommen.
de
Over the past few years, deep learning has been dominating the field of machine learning, outperforming conventional techniques in domains such as speech, image, and text recognition. These domains have very big practical significance, which is also why deep learning is receiving a lot of attention. This has led to applications of deep learning techniques in safety-critical tasks. However, neural networks are vulnerable to adversarial examples, well-crafted small perturbations of the input. Therefore, the question of robustness and security of deep learning models has become a major concern, indirectly also affecting safety. In this thesis, several state-of-the-art white-box and black-box adversarial attacks, like Carlini and Wagner L2 and L∞, HopSkipJump, and Universal Perturbations, are compared and evaluated against state-of-the-art Convolutional neural networks (CNN) under different target settings in the image recognition domain. Additionally, defense techniques against such attacks, like adversarial training and pre-processing defenses, are used to evaluate the improvement of the robustness of the CNNs. Furthermore, a combination of these defenses is tested with the hope to potentially obtain new defenses that have an increased level of robustness. The experiments show that the use of defenses mechanisms is necessary to provide CNNs with a higher level of robustness, especially in the untargeted setting. The evaluation of results indicates that adversarial training provides a similar level of robustness compared to pre-processing techniques, but with the cost of lower accuracy of the model on the original data. The pre-processing techniques were very effective against adversarial attacks that generated adversarial images, which are very close to the original images measured in L2 metric.