Third party funded individual grant
Acronym: REFIT
Start date : 01.10.2009
End date : 31.10.2024
Durch Einführung von Redundanz ist es möglich verteilte Systeme zu bauen, die nicht nur Ausfälle einzelner Komponenten tolerieren können, sondern beliebiges Fehlverhalten. Leider ist diese Robustheit beim Rückgriff auf existierende Ansätze nur auf Kosten eines stark erhöhten Ressourcenverbrauchs zu erreichen, so dass der erforderliche Mehraufwand den eigentlichen Nutzen oftmals übersteigt. Der Fokus des Projekts „Resource-Efficient Fault and Intrusion Tolerance (REFIT)“ liegt darauf Protokolle und Systeme zu entwickeln, die Fehlertoleranz und Ressourceneffizienz miteinander in Einklang bringen. Zentrale Herangehensweise ist hierbei, die Redundanz während des Normalbetriebs eines System auf das Nötigste zu beschränken und zur Tolerierung von Fehlern erforderliche Ressourcen nur im Rahmen der Fehlerbehandlung zu belegen.
Internet-based services play a central role in today's society. With such services progressively taking over from traditional infrastructures, their complexity steadily increases. On the downside, this leads to more and more faults occurring. As improving software-engineering techniques alone will not do the job, systems have to be prepared to tolerate faults and intrusions.
REFIT investigates how systems can provide fault and intrusion tolerance in a resource-efficient manner. The key technology to achieve this goal is virtualization, as it enables multiple service instances to run in isolation on the same physical host. Server consolidation through virtualization not only saves resources in comparison to traditional replication, but also opens up new possibilities to apply optimizations (e.g., deterministic multi-threading).
Resource efficiency and performance of the REFIT prototype are evaluated using a web-based multi-tier architecture, and the results are compared to non-replicated and traditionally-replicated scenarios. Furthermore, REFIT develops an infrastructure that supports the practical integration and operation of fault and intrusion-tolerant services; for example, in the context of cloud computing.