Project

Back to overview

ProvDS: Uncertain Provenance Management over Incomplete Linked Data Streams

English title ProvDS: Uncertain Provenance Management over Incomplete Linked Data Streams
Applicant Cudré-Mauroux Philippe
Number 169840
Funding scheme Project funding (Div. I-III)
Research institution Département d'Informatique Université de Fribourg
Institution of higher education University of Fribourg - FR
Main discipline Information Technology
Start/End 01.06.2018 - 31.05.2021
Approved amount 353'431.00
Show all

Keywords (4)

Provenance; Internet of Things; Linked Data; Data Streams

Lay Summary (French)

Lead
La provenance décrit comment les résultats sont produits commençant des sources des données, la curation, la reconstruction, le traitement immédiat jusqu’au résultat final. La provenance a été appliquée pour résoudre maints problèmes et en particulier pour comprendre la propagation des erreurs dans des environnements à grande échelle comme Internet of Things (IoT). La capacité à identifier proprement comment les erreurs influencent les résultats est crucial afin d’évaluer la qualité des résultats. Dans le cadre du projet ProvDS, nous proposons d’investiger des méthodes de calcul de provenance dans les flux de données liées (Linked Data Streams) qui sont incomplets. La précision et l’efficacité des techniques développées seront testées et évaluées sur des données réelles.
Lay summary
Les objectifs principaux au début du projet se résument à fournir: i) des moyens pour tracer la provenance des utilisateurs, ii) des méthodes de découverte de provenance à partir des données reconstruites et iii) des techniques de stockage de données qui tiennent en compte la provenance.

Les problèmes taclés dans ce projet sont d’une immense importance actuellement, étant donné que les données manquantes sont omniprésentes dans les flux de données IoT et la provenance est couramment utilisée pour évaluer la qualité des données et l’exactitude des résultats des requêtes. La recherche réalisée dans le cadre de ce projet est applicable sur une large variété de domaines et va bénéficier aux chercheurs qui appliquent divers taches d’analyse de données (comme la prédiction, l'analyse de tendances, etc.) aussi bien que le traitement des évènements à temps réel. Par exemple, dans les domaines comme les villes intelligentes (smart cities) ou la navigation intelligente, les données à temps réel collectionnées à partir de systèmes distribués et non fiables manquent d’information sur la provenance et souvent induisent à des données erronées et incomplètes. Tels environnements sont vulnérables à la propagation d’erreurs vu que ces erreurs ne peuvent pas être retracées sans avoir des connaissances sur la provenance. Dans ces domaines, nos techniques vont permettre aux utilisateurs de mitiger l’influence des données manquantes ou erronées dans leurs applications. Notre solution va aussi permettre aux utilisateurs  de mieux comprendre comment les données et les résultats des requêtes sont produits, ce qui constitue un élément clé dans l’établissement de la transparence, l’assurance qualité et la bonne gouvernance pour les entreprises ainsi que les gouvernements. 
Direct link to Lay Summary Last update: 09.05.2018

Responsible applicant and co-applicants

Employees

Abstract

Provenance describes how results are produced starting from data sources, curation, recovery, intermediate processing, to the final results. Provenance has been applied to solve many problems and in particular to understand how errors are propagated in large-scale environments such as the Internet of Things. In fact, in such environments operations on data are often performed by multiple uncoordinated parties, each potentially introducing or propagating errors. These errors cause uncertainty of the overall data analytics process that is further amplified when many data sources are combined and errors get propagated across multiple parties. The ability to properly identify how such errors influence the results is crucial to assess the quality of the results. This problem becomes even more challenging in the case of Linked Data Streams, where data is dynamic and often incomplete. In the ProvDS project, we investigate methods to compute provenance over Linked Data Streams that are incomplete. More specifically, we propose provenance and recovery-aware data management techniques that take as input incomplete streams, and simultaneously recover the missing data and compute the provenance over the reconstructed streams. Unlike traditional provenance management techniques, which are applied on complete and static data, our research agenda focuses on dynamic and incomplete heterogeneous data. At a technical level, our main objectives are to provide i) means to deliver a dynamic provenance trace of the results to the user, ii) methods to discover the probable provenance of recovered pieces of data, and iii) provenance- aware compression and storage techniques. The accuracy and the efficiency of the developed techniques will be evaluated and tested using a real-world datasets.
-