Tummeltshammer, P. (2009). Analysis of common cause faults in dual core architectures [Dissertation, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/186533
Dual Core Architektur; Common Cause Fehler; Fehlerinjektion; Spannungsversorgungsexperimente; Beta Faktor Modell; FPGA; ASIC
de
Dual Core Architecture; Common Cause Fault; Fault injection; Power Supply Disturbance; Beta Factor Model; FPGA; ASIC
en
Abstract:
Die Technik der Verdopplung mit nachfolgendem Vergleich hat sich im Bereich der Fehlererkennungsmaßnahmen als sehr effizient herausgestellt. Basierend auf diesem generischen Prinzip werden Dual Core Prozessorarchitekturen mit automatischem Vergleich der Ausgangsdaten für sicherheitskritische Anwendungen eingesetzt. Durch Platzieren zweier gleicher Prozessorkerne beliebigen Typs auf einem Chip kann eine sehr kosteneffiziente Einzelchip-Lösung erzielt werden.<br />Allerdings besteht gleichzeitig die Gefahr, dass durch die physikalische Kopplung der beiden Prozessoren für eine bestimmte Art von Fehlern, welche beide Kerne gleichartig betrifft, der Ansatz des gegenseitigen Vergleichs versagt. Diese Klasse von bösartigen Kopplungseffekten wird Common Cause Fehler (CCF) genannt, und stellt für die Berechnung der Fehlerwahrscheinlichkeit eines redundanten Systems einen wesentlichen Faktor dar. Wichtige allgemeine Sicherheitsstandards wie z.B. der IEC 61508 sagen eine sehr hohe Wahrscheinlichkeit für CCFs auf Einzelchiplösungen voraus. Für den speziellen Fall der vorgestellten Dual Core Architektur stellt sich allerdings die Frage ob bei einer sehr schnellen Fehlererkennung diese CCF Wahrscheinlichkeit nicht zu pessimistisch ist.<br />Konkret stellt sich die Frage wie viel höher die Anfälligkeit einer solchen Einzelchiplösung für CCFs nun tatsächlich ist, als jene einer vergleichbaren traditionellen Architektur, die zwecks räumlicher Trennung auf zwei Cores aufgeteilt ist. Die Dissertation verfolgt daher drei Ziele, nämlich (i) Finden eines passendes Modells, welches die Effekte von CCFs auf einer Dual Core Architektur mit schneller Fehlererkennung beschreibt, (ii) Aufteilen des Problems in verschiedene Kopplungsfaktoren sowie Finden von Wegen diese zu quantifizieren und (iii) Finden möglicher Gegenmaßnahmen um die Auftrittswahrscheinlichkeit von CCFs zu vermindern.<br />
de
Duplication and comparison has proven to be an efficient method for error detection using increased redundancy. Based on this generic principle dual core processor architectures with output comparison are used for safety critical applications. Placing two instances of the same (arbitrary) processor on one die yields a very cost efficient single chip implementation of this principle.<br />At the same time, however, the physical coupling of the two replica creates the potential for certain types of faults to affect both cores in the same way, such that the mutual checking will fail. This class of malicious coupling results is called common cause failures (CCFs), which constitutes a major factor when calculating a redundant system's probability of failure. Due to the fact, that major safety standards predict very high CCF rates for single chip architectures, the question is how reasonable these rates are when using an extremely fast error detection mechanism as found on the presented dual core architecture.<br />One key motivation is to find out how this type of coverage leakage relates to other imperfections of the duplication and comparison approach that would also be found using two cores on separate dies (such as coupling over a common power supply or clock). To this end, the thesis' aims are (i) finding a suitable model which can describe the effect of CCFs on a dual core architecture using fast error detection, (ii) finding ways to quantify this model through analysis or experiment data by splitting the problem into different coupling factors and (iii) find possible countermeasures against said CCFs.