Kerl, T. (2025). Evaluation of Sparse Autoencoder-based Refusal Features in LLMs: Dataset-dependence study [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.130185
E194 - Institut für Information Systems Engineering
-
Date (published):
2025
-
Number of Pages:
96
-
Keywords:
Large Language Models (LLMs); Refusal Behaviour; Mechanistic Interpretability; Sparse Autoencoder (SAE); Dataset Dependence; Model Steering; Feature Transferability
en
Abstract:
Large Language Models (LLMs) werden zunehmend in sicherheitskritischen Anwen-dungsbereichen eingesetzt. Die Kontrolle ihres Verhaltens stellt daher eine zentrale Herausforderung für die Forschung dar. Ein wesentlicher Aspekt hierbei ist refusal, also die Fähigkeit eines Modells, gefährliche oder verletzende Eingaben abzulehnen und nicht darauf einzugehen. Obwohl aktuelle Modelle prinzipiell dazu in der Lage sind, bleiben sie anfällig für Umgehungstechniken. Während klassisches Finetuning als Standardmethode zur Integration solchen Verhaltens gilt, bietet Mechanistic Interpretabilty eine gezieltere Alternative: das direkte Eingreifen in die internen Mechanismen eines Modells. Eine Schlüsselrolle spielen dabei Sparse Autoencoder (SAEs), die darauf ausgelegt sind, aus den Modellaktivierungen ’entflochtene Features’ zu extrahieren, etwa ein Refusal-Feature das mit Ablehnungsverhalten korreliert. Die Effektivität solcher SAEs hängt jedoch stark von den verwendeten Trainingsdaten ab; die zugrunde liegenden Zusammenhänge wurden bisher kaum systematisch untersucht.In dieser Arbeit evaluieren wir systematisch SAEs, die auf unterschiedlichen Varianten von allgemeinem Pretraining und spezialisierten Instruction-Tuning Daten trainiert wurden. Wir zeigen, dass eine Kombination beider Datentypen besonders effektiv ist, um robuste und steuerbare Refusal-Feature, insbesondere in späteren Modell-Ebenen, zu isolieren. Unsere Ergebnisse legen einen klaren Unterschied offen: In frühen Layern erfolgt das Steuern über eine eher grobe ’brute-force’-artige Intervention, während in späteren Layern eine gezielte, subtilere Steuerung möglich ist, vorausgesetzt, das SAE wurde auf instruktionsreicheren Daten trainiert. Zudem zeigen wir einen zentralen Bruch in der kausalen Transferierbarkeit: Zwar lassen sich Feature-Repräsentationen, die ein SAE auf einem Basismodell erlernt hat, auf das instruktionsgetunte Pendant übertragen, jedoch verlieren sie dort ihre Fähigkeit, das Verhalten des Modells sinnvoll zu beeinflussen. Diese Arbeit liefert eine reproduzierbare Methodik zur Analyse der Datensensitivitätinterpretierbarer Steuerungswerkzeuge und verdeutlicht die Fragilität aktueller Steering-Methoden über Finetuning-Grenzen hinweg. Letztlich zeigen unsere Ergebnisse: Die Daten, mit denen Interpretierbarkeitsmethoden trainiert werden, sind ebenso entscheidend wie die Daten, auf denen das Modell selbst basiert.
de
Large language models (LLMs) are being widely deployed in high-stakes domains, making the ability to ensure their safety and control their behavior a critical research challenge. Akey aspect of safety is ’refusal’, the model’s capacity to reject harmful prompts. Current models remain vulnerable to circumvention techniques. While fine-tuning is the standard approach for instilling this behavior, the field of mechanistic interpretability offers a more surgical alternative by directly manipulating a model’s internal mechanisms. Sparse autoencoders (SAEs) are a primary tool in this effort, designed to extract disentangled ’features’ corresponding to specific concepts, such as a refusal feature, from a model’s activations. However, the effectiveness of SAEs is known to be highly dependent on their training data, and the principles governing this relationship remain unsystematically explored. Here we systematically evaluate SAEs trained on various mixtures of general pre-training and specialized instruction-following data and show that a blend of both data types is most effective at isolating robust and steerable refusal features, particularly within the later layers of the model. Our findings reveal a clear distinction between a ’brute-force’ steering mechanism in early layers and a more precise ’nudge’ in later layers, with the latter being most effectively unlocked by SAEs trained on instruction-rich data. Furthermore, we demonstrate acritical failure of causal transfer: while the feature representations learned by an SAE on a base model transfer to its instruction-tuned counterpart, they lose their ability to causally influence its behavior. This work provides a reproducible methodology for analyzing the data-dependence of interpretability tools and highlights the brittleness of current steering methods across fine-tuning regimes. Ultimately, our results under score that the data used to train interpretability tools is as critical as the data used to train the models themselves.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers