In unserer Gesellschaft gibt es Anwendungsfälle für Gesichtsanalysesoftware, die von der Gesichtserkennung über die Gesichtslokalisierung bis zur Erkennung von Emotionen reichen kann. Heutzutage werden diese Aufgaben mithilfe von Deep-Learning-Modellen gelöst, die auf Datensätzen trainiert werden und Tausende von Bildern enthalten, um die Variabilität im menschlichen Gesicht zu erfassen. Ein Problem dabei ist, dass dieseTrainingsdatensätze unter Voreingenommenheit leiden, da einige Kohorten unserer Gesellschaft unterrepräsentiert sind. Dies kann zu einem Problem werden, da Gesichtserkennungsmodelle unter anderem auch von egierungsorganisationen (z. B. Strafverfolgungsbehörden), aber auch für Authentifizierungsaufgaben verwendet werden. Um dieses Problem anzugehen, trainieren wir ein neuronales Netzwerk und skalieren den Trainingsfehler für schwierige Klassifizierungen neu, um einen allgemeineren Merkmalsvektor zu erhalten. Diese Fehlerfunktion wird als “anchor loss“ bezeichnet. Wir vergleichen dieses Modell mit einer Baseline, die mit einem Standard-Softmax-Kreuzentropiefehler trainiert wurde. Die Auswertung von zwei Datensätzen zeigt, dass unser neues Modell die Genauigkeit der "labeled faces in the wild"(LFW) und aller Teilmengen des Datensatzes "racial faces in the wild"(RFW) im Vergleich zu einem Baseline Modell erhöht. Darüber hinaus bieten wir eine t-sne- und Saliency-Map-Visualisierung an, um die Black-Box-Eigenschaft neuronaler Netze zu reduzieren und die Entscheidungen des Modells leichter verständlich zu machen. Die Visualisierung der Ausprägung zeigt, dass unser “anchor loss“ -Modell im Vergleich zur Baseline weniger Gesichtsattribute verwendet.
de
There are use cases for face analysis applications in our society, reaching from facial recognition over facial detection to facial expression analysis. Nowadays those tasks are solved utilizing deep learning models, which are trained on datasets, containing thousands of images to capture variability within the human face. One problem is that these training datasets often suffer from bias, as cohort of our society are underrepresented. This can become a major problem, as facial recognition models are utilized by governmental organisations (e.g. law enforcement), but also for authentication tasks. To address this problem, we train a neural network and re-scale the training error for difficult classifications to obtain a more generalized feature vector. This error function is known as "anchor loss". We compare this model to a baseline trained with a standard softmax cross entropy error. The evaluation of two data sets shows that our new model increases the accuracy on the "labeled faces in the wild" (LFW) and on all subsets of the "racial faces in the wild" (rfw) dataset compared to a baseline model. In addition, we offer a t-sne and saliency map visualization to reduce the black box property of neural networks and to make the decisions of the model easier to understand. The visualization of the saliency shows that our "anchor loss" model uses less facial attributes compared to the baseline.
en
Additional information:
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers