Bayler, G. M. (2007). Penetrating Bayesian spam filters using redundancy in natural language [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-13945
Today's attacks against Bayesian spam filters attempt to keep the content of spam emails visible to humans, but obscured to filters, or they attempt to fool the filters with additional good words appended to the spam. Another conceivable approach is to substitute suspicious words in spam emails with innocent words to make them appear as legitimate emails (i.e., ham emails). A precondition for the success of such an attack is that Bayesian spam filters of different users assign similar spam probabilities to similar tokens. In this thesis, it is examined whether this precondition is met; afterwards, the effectivity of a substitution attack is measured by creating a test set of spam messages that are classified by three different spam filters.<br />
de
Heutzutage übliche Attacken gegen Bayessche Spamfilter verwenden meistens eine von zwei verschiedenen Methoden: entweder wird der Inhalt von Spam-E-Mails so verändert, dass er zwar von Menschen, nicht aber von Spamfiltern gelesen werden kann, oder aber es werden unverdächtig aussehende Wörter zum Spam-E-Mail hinzugefügt, um die Spamfilter zu täuschen. Eine andere denkbare Variante, um Bayessche Spamfilter zu umgehen, ist, für Spamfilter verdächtige Wörter in Spam-E-Mails durch Synonyme dieser Wörter zu ersetzen, die für Bayessche Spamfilter unverdächtig sind, um zu erreichen, dass derart manipulierte Spam-E-Mails vom Filter nicht erkannt werden. Eine Voraussetzung für eine Attacke dieser Art ist, dass Bayessche Spamfilter von verschiedenen Usern gleichen Wörtern ähnliche Spam-Wahrscheinlichkeiten zuweisen. In dieser Diplomarbeit wird zuerst untersucht, ob diese Voraussetzung erfüllt ist. Danach wird die Effektivität einer Substitutionsattacke untersucht, indem 100 Spam-E-Mails, bei denen verdächtige Wörter automatisch durch unverdächtige Synonyme ersetzt wurden, durch drei verschiedene Spamfilter klassifiziert werden.