Panhofer, T. (2012). Self-healing asynchronous circuits for high-reliability applications [Dissertation, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-47033
Neue Generationen von integrierten, programmierbaren Bauelementen stellen ausreichend Ressourcen zur Verfügung, um komplette "Systems-on-Chip" (SoC) zu realisieren. Fortschreitende Miniaturisierung, höhere Integrationsdichten, sinkende Versorgungsspannungen und einige andere Parameterveränderungen führen dazu, dass Fehlereffekte, die bisher nur in extremen Umgebungsbedingungen wie z.B. im Weltraum von Relevanz waren, nun auch Schaltungen in normaler Umgebung stören können. Gleichzeitig steigt auch die Wahrscheinlichkeit für Mehrfachfehler während des Betriebs. Diese divergierende Entwicklung - steigende Komplexität und sinkende (System-) Zuverlässigkeit - wird zunehmend zu einem signifikanten Problem für hochzuverlässige Anwendungen.<br />Während für die Mitigation von transienten Fehlern zahlreiche etablierte Methoden existieren, ist die Behandlung von permanenten Fehlern weitgehend unerforscht. Traditionelle Massnahmen, wie z.B. TMR, sind oft aufgrund ihres Ressourcenverbrauchs, zusätzlicher Masse und erhöhter Leistungsaufnahme unattraktiv. Weiters sind die Fehlerauswirkungen in komplexen Systemen schwer vorherzusagen. Insbesondere für Anwendungen, in denen eine Reparatur sehr teuer oder sogar unmöglich ist, wird nun versucht, eine gewisse Autonomie in der Fehlerbehandlung zu erzielen.<br />Diese Dissertation beschreibt ein selbstheilendes System für integrierte digitale Logik. Das Konzept verwendet eine redundante asynchrone Pipeline als Ausgangsstruktur. Kombinatorische Logik wird durch sogenannte selbstheilende Zellen (SHC) ersetzt. Insbesondere die asynchrone Design-Methodik FSL bietet einige inhärente Eigenschaften, die für ein fehlertolerantes System von Vorteil sind (z.B. "fail-stop" Verhalten). Ein Watchdog überwacht die Schaltungsaktivität und startet im Fehlerfall eine Rekonfiguration. Sobald gültige Signal-Pfade vorhanden sind, setzt die Pipeline ihre Arbeit fort. Grundsätzlich werden die Daten dabei nicht gestört. Die entstehende Struktur der Pipeline beeinflusst jedoch das zeitliche Verhalten und kann zu Problemen führen. Für die Verifikation des Konzepts wurde ein VHDL Modell sowohl der Pipeline als auch unterschiedlicher Algorithmen entwickelt, sowie auch ein abstraktes Modell in Matlab. Schließlich wurde die Schaltung in einem Xilinx Virtex-4 FPGA implementiert und umfangreichen Experimenten unterzogen. Alle Modelle verwenden den gleichen Kontrollmechanismus, sodass idente Situationen in allen Modellen auf unterschiedlichen Abstraktionsebenen untersucht werden konnten.<br />Die Ergebnisse beweisen die Eignung des Konzepts für die Erhöhung der Fehlertoleranz in integrierten Schaltungen: alle Einzelfehler, mehr als 80% der Doppelfehler und fast 60% der Dreifachfehler konnten behoben werden, während der zusätzliche Ressourcenaufwand vergleichbar mit TMR Systemen ist.<br />
de
New generations of integrated programmable logic devices offer more and more resources, which makes them very attractive for implementing even complete systems on chip. Advancing miniaturization, higher integration, continuously decreasing supply voltage and other changing parameters lead to a situation where fault effects that previously were an issue only in extremely harsh environments, e.g.<br />space missions, are now impacting the circuits also in "normal" environments. At the same time the probability for multiple faults occurring during operation is increasing. This diverging evolution - increasing complexity vs. decreasing (system) reliability - is getting a serious problem for high reliability applications.<br />While a lot of methods exist to handle transient faults, there are no consolidated concepts available for permanent faults. Traditional fault tolerance concepts, e.g. TMR, are usually costly in terms of hardware resources, mass and power consumption. Furthermore, for highly complex systems it is difficult to predict the failure modes. In particular for those high-reliability applications, where a repair is very expensive or even impossible, the trend goes towards adaptive systems that can autonomously cope with failure situations as they arise. In this thesis a self-healing concept for integrated digital logic is presented. The approach is based on asynchronous circuits and uses a redundant pipeline as basic circuit structure. Combinational logic is replaced by reconfigurable Self-Healing Cells (SHC). The inherent properties of the asynchronous design style FSL simplify the design of a fault tolerant system, as it features e.g. fail-stop behavior without additional effort. A watchdog circuit monitors the circuit's activity and triggers the reconfiguration controller to start the circuit reconfiguration in case of a deadlock. As soon as a valid data and acknowledge path is established, the pipeline autonomously starts working again. In general, this procedure works without loss or corruption of data. However, the pipeline structure and the applied reconfiguration algorithm influence the sensitivity to timing effects and the probability for a successful repair. To verify the function of the concept, a VHDL model of the self-healing pipeline as well as of several different reconfiguration controllers was designed. In addition an abstract Matlab model was established and used for exhaustive fault injection simulations. Finally, the circuits were implemented in a Xilinx Virtex-4 FPGA and hardware fault injection experiments were performed. All models used the same stimulus interface, so that identical situations could be investigated and compared on different abstraction levels. The results justify the suitability of the approach for increasing the fault tolerance of integrated circuits: All single faults, more than 80% of the double faults and nearly 60% of triple faults can be tolerated by the developed concept, while introducing a hardware overhead comparable to a TMR system.<br />