Steininger, A., & Tummeltshammer, P. (2011). Replicated processors on a single die - How independently do they fail? Elektrotechnik Und Informationstechnik : E & i, 128(6), 245–250. https://doi.org/10.1007/s00502-011-0005-9
Eine bekannte und effiziente Fehlertoleranzmethode ist die Verwendung mehrerer Komponenten in Kombination mit einem Ausgangsvergleicher. System-on-chip-Architekturen ermöglichen eine kosteneffiziente Implementierung dieser Methode auf einem Chip. Die resultierende Nähe der einzelnen Komponenten impliziert allerdings ein erhöhtes Risiko zur Fehlerkopplung, weshalb Einzelchip-Lösungen anfälliger für Common Cause-Fehler (CCFs) sind als Lösungen mit mehreren Chips. Bis dato ist jedoch unklar, in welchem Ausmaß diese Kopplung den durch die Replikation erzielten Gewinn an Systemzuverlässigkeit wieder egalisiert. In dieser Arbeit analysieren die Autoren potentielle Kopplungsmechanismen und erörtern, unter welchen Umständen sie zu einem identischen Ausgabewert aller Komponenten führen, da genau in diesem Fall das Prinzip der Replikation versagt. Es werden sowohl Simulation als auch experimentelle Untersuchungen verwendet, um eine quantitative Lösung zu dieser Frage abzuleiten. Speziell liegt der Fokus auf thermischen Effekten und Störungen in der gemeinsam genutzten Spannungsversorgung. Neben der Analyse der relativen Wahrscheinlichkeit von CCFs analysieren die Autoren auch die Effektivität von Gegenmaßnahmen. Sie erarbeiten ein Modell, um den Ursprung dieser CCFs in verschiedene Schritte zu zerlegen, und zeigen, dass CCFs eine enge lokale und zeitliche Übereinstimmung erfordern, was sehr unwahrscheinlich für z. B. thermische Effekte ist. Eine allgemeine Erkenntnis ist, dass selbst geringe Asymmetrien zwischen den Komponenten bereits zu einer drastischen Reduktion der CCFs führen.
A very popular and efficient method for achieving fault tolerance is replication of components paired with a comparison of their outputs. Systems-on-chip architectures enable a cost-efficient implementation of this scheme on a single die. The resulting close physical proximity of the replica, however, implies an increased coupling, and therefore single-die solutions are more susceptible to common-cause faults (CCFs) than equivalent multi-chip approaches. Unfortunately, no answer could be given so far, to which degree the coupling decreases the dependability gain accomplished by the replication even in a single-die solution. In this paper we analyze potential coupling mechanisms and study under which circumstances they lead to identical outputs in all replica, since exactly in this case the replication and comparison scheme will fail. We perform both, simulation studies as well as comprehensive experimental investigations to derive a quantitative answer to this question. Our particular focus is on thermal effects and on the effects of disturbances in a shared power supply in a duplicated processor architecture. Beyond observing the relative probability of occurrence of CCFs, we also study the effectiveness of several countermeasures against them. We elaborate a model to decompose the genesis of CCFs into several steps, and show that very tight local and temporal coincidence of the fault effect in both replica is crucial for a CCF, which is unlikely, e.g. in the case for thermal effects. As a general result it turns out that even small asymmetries between the cores yield a drastic reduction in the CCF probability.
en
Project title:
Bosch
-
Research Areas:
Computer Engineering and Software-Intensive Systems: 100%