Moser, M. (2022). The effect of differentially private learning algorithms on neural networks : The protection of sensitive training data [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2022.79367
Machine Learning wird immer häufiger in den unterschiedlichsten Bereichen genutzt. Heutzutage existieren unzählige Anwendungsbereiche, wovon etliche mit sensiblen Trainingsdaten arbeiten zum Beispiel der Medizinbereich. Diese Daten werden oft nicht gegen Angriffe geschützt, welche die Vertraulichkeit verletzen. Bei bekannten Attacken gelingt es dem Angreifer mit Hilfe weniger Informationen, Rückschlüsse auf die Trainingsdaten führen zu können. Dafür ist beispielsweise nur das gelernte Modell nötig. Bekannte Angriffe sind zum Beispiel die Membership Inference Attacke, die Attribute Disclosure oder die Model Inversion. Ein viel versprechendes Konzept welches gegen diese Attacken schützen könnte wäre die Definition "Differential Privacy". Das Versprechen von Differential Privacy gewährleistet, dass allgemeine Information erhoben werden können, individuelle Daten sind aber mehr geschützt. Differential Privacy kann mit einem zufälligen Verrauschen erreicht werden. Die Privatsphäre wird dabei mit der Höhe des Störrsignales geregelt. In dieser Arbeit werden etablierte differentially private Lernalgorithmen betrachtet und erforscht. Bei den betrachteten Algorithmen existieren noch weiter Parameter, welche Auswirkungen auf die Klassifizierung und auf die Privatsphäre haben. Sowohl mit Hilfe von Experimenten, als auch unter Berücksichtigung der Literatur wird das Verhalten der Parameter mit unterschiedlichen Datensätzen getestet. Ein besonderes Augenmerk wird hier der Beziehung, zwischen dem Störsignal und der Klassifizierung, gewidmet. Im laufe der Arbeit werden auch vorsichtig Richtlinien definiert um diese Parameter optimal zu setzen. Zum Schluss wird zusätzlich gezeigt, welche Erfolgsrate die Membership Inference Attack auf mit Differential Privacy gelernte Modelle und auf nicht privat gelernte Modelle hat.
de
Machine learning is used in more and more areas. Countless applications can be named, where quite a few work with sensitive training data, for example the medical sector. Attacks have been proposed where attackers can draw conclusions about the training data, even it is not published. For some attacks, only the learned model is required. Well-known attacks are, for example, membership inference, attribute disclosure or model inversion.A concept that can protect against these attacks would be differential privacy. Differential privacy is a definition that ensures that individual data are more protected. Statistical information over the whole population can still be collected from this data. In order to achieve differential privacy, random noise can be used to protect the training data, where the amount of noise regulates the privacy level.In this work established differentially private learning algorithms were considered. For these learning algorithms not only the amount of noise is a parameter that affects the classification and privacy. There are different numbers of parameters depending on the algorithm. The behaviour of their parameters was investigated through a literature review as well as an experimental evaluation conducted on multiple datasets, as part of this work. Special attention was paid to the relationship between the noise and thus achieved privacy, and the classification effectiveness. In the second part of this work guidelines for setting these parameters were defined. In addition, the success rate of inference attacks on models learned with differential privacy as well as on models not learned privately is analysed by using the membership inference attack.