Ratasich, D. (2019). Self-healing cyber-physical systems [Dissertation, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2019.64761
self-healing; fault-tolerance; redundancy; resilience; self-adaptation; cyber-physical systems
en
Abstract:
In unserer Umgebung werden vermehrt digitale Geräte zum Messen und Steuern von physikalischen Systemen sogenannte Cyber-Physical Systems (CPSs) eingesetzt, zum Beispiel in intelligenten Häusern, medizinischen Geräten und autonomen Fahrzeugen. Immer häufiger werden CPSs miteinander verbunden, um Geräte zu teilen und weitere Daten auszutauschen. Solche Systeme weisen eine hohe Dynamik oder Elastizität, Heterogenität und Komplexität auf, was zu einer erhöhten Verwundbarkeit und Fehleranfälligkeit beiträgt. Daher benötigen moderne CPSs adaptive Fehlertoleranz, um langfristig deren Zuverlässigkeit und Sicherheit zu garantieren. Self-Healing ist eine relativ neue Methode, um die Widerstandsfähigkeit oder Resilienz, d.h. eine angemessene Überwachung und Korrektur bei Fehlern, eines elastischen Systems zu gewährleisten. In dieser Arbeit wird ein Ansatz vorgestellt, der auf Redundanz von kommunizierter Information basiert. Die Daten oder Signale von physikalischen Eigenschaften (CPS Variablen), welche in einem Netzwerk geteilt werden, können in einer Wissensbank in Relation zueinander gesetzt werden. Diese implizite Redundanz kann dazu genutzt werden fehlerhafte Sensoren zu erkennen und diese gegebenenfalls mit Ersatzkomponenten auszutauschen sogenanntes Self-Healing by Structural Adaptation (SHSA). Diese Arbeit entwickelt Anforderungen und Richtlinien für die Architektur eines Systems, das den SHSA-Dienst integrieren soll, und präsentiert Algorithmen, die Fehler detektieren und ausmerzen. Dazu wird eine Wissensbank abgeleitet und implementiert, welche die Relationen zwischen CPS Variablen modelliert (unter der Annahme, dass implizite Redundanz im System existiert). Die Wissensbank wird benutzt, um adaptive Monitore zu erstellen, die verwandte und ähnliche Signale vergleichen, wobei auch Ungenauigkeiten im Wert- und Zeitbereich der Signale berücksichtigt werden. Ein Monitor löst im Fehlerfall die Korrektur-Prozedur des Systems aus. Während der Korrektur wird die Wissensbank durchsucht, um eine optimale Ersatzkomponente für die fehlerhafte Information zu generieren. Weiters ermöglicht ein passendes Interface für die Ersatzkomponente die Verarbeitung von Messwerten verschiedener Quellen, welche in einem großen Netzwerk oftmals asynchron, mit unterschiedlichen Raten und verzögert empfangen werden. Die vorgeführten Anwendungsfälle und Prototypen demonstrieren die Anwendbarkeit und Funktionalität von SHSA. Eine Evaluierung zeigt, dass SHSA für viele Fehlerarten eingesetzt werden kann und die Laufzeit der Korrektur durch eine geeignete Suche im Vergleich zu verwandten Algorithmen verringert werden kann.
de
An increasing number of digital devices so-called Cyber-Physical Systems (CPSs) measure and control several aspects of our physical environment. More and more CPSs are connected with each other to share devices and information, e.g., in smart buildings, smart medical devices or autonomous vehicles. However, the higher level of elasticity or dynamicity, heterogeneity and complexity adds to the systems vulnerability, thus challenges its ability to react to faults. Such a system requires adaptive fault-tolerance to ensure long-term dependability and security or scalable resilience. Self-healing is an increasingly popular approach for ensuring resilience, that is, a proper monitoring and recovery to failures, in elastic or dynamic CPSs. This work presents a self-healing service that exploits redundancy of information on a communication network. Information or signals of physical entities CPS variables can be encoded in a knowledge base collecting the relations between these CPS variables. Such an implicit information redundancy can be used to detect and substitute failed observation components (e.g., sensors) referred to as Self-Healing by Structural Adaptation (SHSA). This work develops requirements and guidelines for the system architecture where the SHSA service shall run on and proposes algorithms that detect and mitigate failures. To this end, an adaptive knowledge base is derived and implemented by modeling relations among CPS variables given that certain implicit redundancy exists in the system. The knowledge base is then used to generate adaptive runtime monitors which compare related signals by considering uncertainties in space and time. The monitor is used to trigger the recovery process of SHSA. During recovery, the knowledge base is again used to extract an optimal substitute optimal, w.r.t. a user-defined utility function through guided search considering properties of signals, variables and relations. Moreover, a proper interface of the substitute enables the processing of asynchronous, multi-rate and delayed measurements of different sources. The presented use case discussions and real-world prototypes feature the applicability and functionality of SHSA. The evaluation shows the ability of detecting various kinds of faults and an increased runtime performance of the substitution search compared to related work.