Project

Back to overview

Next generation erasure coding methods for cloud storage

English title Next generation erasure coding methods for cloud storage
Applicant Estrada Galinanes Veronica del Carmen
Number 162014
Funding scheme Doc.Mobility
Research institution Jack Baskin School of Engineering University of California
Institution of higher education Institution abroad - IACH
Main discipline Information Technology
Start/End 01.02.2016 - 31.07.2016
Show all

Keywords (11)

reliability; archival storage; long-term retention data; erasure codes; cloud storage; data entanglement; fault tolerance; codes d'enchevêtrement; tolérance aux pannes; archivage d'information; fiabilité

Lay Summary (French)

Lead
La préservation des données numériques a donné lieu à de nombreuses études. Néanmoins, plusieurs problèmes fondamentaux restent ouverts, en particulier dans le contexte du stockage de données redondantes. Un système fiable doit d’une part garantir la disponibilité des données même en présence de pannes temporaires, et d’autre part offrir des mécanismes de réparation pour récupérer les données après les pannes permanentes. Les méthodes actuelles entrainent une importante consommation de ressources. Nous avons récemment proposé une nouvelle méthode basée sur l'enchevêtrement de données dans le but d’offrir des niveaux élevés de tolérance aux pannes tout en utilisant efficacement les ressources du système. Cette méthode peut être utilisée comme mécanisme intégré de génération de redondance. Ce projet vise à acquérir une meilleure compréhension de la façon d'intégrer les mécanismes d'enchevêtrement dans certains systèmes de stockage largement répandus.
Lay summary

L'objectif principal est d'évaluer de nouvelles techniques de fiabilité basées sur l'enchevêtrement des données. Notre recherche se concentre sur les codes hélicoïdales d'enchevêtrement (HEC), une technique qui se fonde sur deux idées. Tout d'abord, le système crée des interdépendances entre les données stockées dans différents dispositifs de stockage afin de générer des informations redondantes. Deuxièmement, le système propage efficacement ces redondances parmi un grand nombre de dispositifs de stockage. En outre, le système offre plusieures manière de reconstruire des données perdues après des pannes en utilisant le contenu qui a survécu. L’enchevêtrement de données est une solution prometteuse pour augmenter la tolérance aux pannes, et donc pour améliorer la durabilité et la disponibilité des données. Nous prévoyons dans ce projet de consolider les principes de fonctionnement de HEC et de valider les idées sous-jacentes. Cette collaboration devrait aboutir à des simulations plus détaillées, ainsi qu’à la mise en œuvre d'un prototype de codes d'enchevêtrement. Nous prévoyons de publier nos résultats dans 1-2 articles scientifiques.

Les méthodes classiques pour le stockage de données redondantes ne peuvent pas tolérer un nombre de défaillances simultanées supérieur au nombre de copies. Or, la création et le stockage de données redondantes nécessite beaucoup de ressources. Plusieurs approches basées sur des techniques de codage et permettant de limiter ces ressources ont été récemment développées. Pour la plupart d’entre elles, les compromis en termes de stockage, de bande passante du réseau et d'autres ressources limitent la capacité du système à tolérer plus de pannes. D'autres ont donné lieu à des avancées de nature uniquement théorique. Notre recherche offre une solution qui prend en compte plusieurs aspects pratiques et, par conséquent, pourrait être considérée comme une solution concrète pour les applications de stockage déployées dans des systèmes réels. 

 

 

Direct link to Lay Summary Last update: 04.11.2015

Responsible applicant and co-applicants

Collaboration

Group / person Country
Types of collaboration
SSRC from UC Santa Cruz United States of America (North America)
- in-depth/constructive exchanges on approaches, methods or results
- Research Infrastructure
- Industry/business/other use-inspired collaboration
Computer Science Department, University of Houston United States of America (North America)
- in-depth/constructive exchanges on approaches, methods or results
- Publication

Scientific events

Active participation

Title Type of contribution Title of article or contribution Date Place Persons involved
Computer Science Seminar Individual talk Using Data Entanglement to Propagate Redundancy 14.07.2016 University of Houston - Houston, Texas, United States of America Estrada Galinanes Veronica del Carmen;
14th Annual Research Retreat at the University of California, Santa Cruz Talk given at a conference Data Entanglement: Benefits and Limitations of an Entangled Storage 11.05.2016 Santa Cruz, United States of America Estrada Galinanes Veronica del Carmen;
6th Workshop on Cloud Data and Platforms(CloudDP) Talk given at a conference DNA-like Data Storage Systems: An Approach to Relax Trade-offs Between Performance and Reliability 18.04.2016 London, Great Britain and Northern Ireland Estrada Galinanes Veronica del Carmen;
EuroSys 2016 - Workshop Poster Poster On the Theory for Data Entanglement 18.04.2016 London, Great Britain and Northern Ireland Estrada Galinanes Veronica del Carmen;
10th EuroSys Doctoral Workshop (EuroDW’16) Talk given at a conference Trustworthy Entangled Storage 18.04.2016 London, Great Britain and Northern Ireland Estrada Galinanes Veronica del Carmen;
USENIX FAST 16 Poster Override RAID: Redundant Array of Interdependent Disks 22.02.2016 Santa Clara, United States of America Estrada Galinanes Veronica del Carmen;
USENIX FAST 16: Work in Progress (short-talk) Talk given at a conference Override RAID: Redundant Array of Interdependent Disks 22.02.2016 Santa Clara, United States of America Estrada Galinanes Veronica del Carmen;


Associated projects

Number Title Start Funding scheme
136318 Trustworthy Cloud Storage 01.03.2012 Sinergia

Abstract

This project proposes the study of next generation erasure coding methods to preserve data in cloud storage systems efficiently. Cloud computing is built with less expensive hardware. Software and hardware failures may cause data loss. The storage of redundant data is essential to preserve digital data. Replication is a de-facto standard to create redundancy, e.g. triplication keeps three replicas in distinct places. Google, Facebook and many other storage systems use triplication. Currently, research and industry efforts are focused on reducing the storage overhead. As a result, erasure coding like Reed-Solomon codes are a popular alternative. None of both approaches can practically tolerate a large amount of simultaneous failures as they consume plenty of resources. Significant trade-offs among the storage overhead, network bandwidth, disk I/O constitute a limitation on a system’s fault-tolerance. As a result, the failure tolerance is low. For instance, triplication tolerates 2 failures, and Reed-Solomon in a common setting used by Facebook tolerates 4 failures. The main question that this project tries to address is: How can we improve the reliability of storage systems while using few resources? Increasing the fault tolerance brings multiple benefits. Notably, it helps for long-term retention of data. In addition, it may facilitate datacenter maintenance and is a deterrent against malicious attacks such tampering or data censorship. The hypothesis is that the creation of interdependencies between old and new content inserted in a system can be used to disperse redundant data across a large amount of devices efficiently.
-