Project

Back to overview

Privacy Preserving, Peta-scale Stream Analytics for Domain-Experts

English title Privacy Preserving, Peta-scale Stream Analytics for Domain-Experts
Applicant Böhlen Michael
Number 167177
Funding scheme NRP 75 Big Data
Research institution Institut für Informatik Universität Zürich
Institution of higher education University of Zurich - ZH
Main discipline Information Technology
Start/End 01.08.2017 - 31.12.2021
Approved amount 701'527.00
Show all

Keywords (4)

privacy; big data; stream optimization; stream processing

Lay Summary (German)

Lead
Wir alle produzieren unablässig Daten und dies in beispielloser Geschwindigkeit. Die Ausbildung einer ausreichenden Zahl von Informatikerinnen und Informatikern, die diese Daten sammeln und analysieren, wird somit zunehmend unrealistisch. Also müssen wir neue Wege finden, um Daten schon während ihrer Entstehung zu analysieren. Für das datenschutzgerechte Petabyte-Verarbeitungssystem entwickeln wir zunächst eine benutzerfreundliche Programmiersprache, die auf herkömmlichen Abfragen basiert, aber für Statistik- und Echtzeit-Operationen erweitert wird.
Lay summary

Die Anwender sollen den gewünschten Datenschutzumfang definieren können. Der System-Compiler setzt anschliessend die Statistikfunktionen und die Datenschutzspezifikationen in ausführbare Berechnungen um. Schliesslich wird mithilfe vorhandener Systeme (z. B. Apache Flink, Spark Streaming oder Storm) das beste Konzept zur Optimierung der Ausführung ausgewählt.

Die Produktion von Big Data überschreitet schon bald die verfügbaren Speicherkapazitäten und die Zahl der IT-Fachpersonen, die mit diesen Daten umgehen können. Auch sorgt sich die Gesellschaft zunehmend um den Datenschutz. Zur Lösung dieser Probleme brauchen wir sogenannte Datenstrom-Verarbeitungssysteme, die laufend die eingehenden Daten analysieren (anstatt sie zu speichern) und auch von Nicht-Informatikern datenschutzgerecht bedient werden können. Dieses Projekt könnte die Entwicklung neuer, gesellschaftlich akzeptierter Anwendungen für die Echtzeit-Datenanalyse enorm vereinfachen.

Geplant ist die Entwicklung eines Systems im Petabyte-Massstab (d. h. geeignet zur Verarbeitung von Millionen von Gigabytes), mit dem auch Nicht-Informatiker Hochleistungsdatenströme analysieren können. Unsere Lösung soll komplexe statistische Verfahren in Echtzeit unterstützen und den Schutz der Daten gewährleisten. Um die Robustheit und Funktionalität des Systems beurteilen zu können, werden wir die Verarbeitungskette des "Australian Square Kilometre Array Pathfinder"-Radioteleskops nachbilden. Hier fallen bis zu 2,5 Gigabyte Rohdaten pro Sekunde an. Um die Datenschutzkapazität zu beurteilen, analysieren wir die Fernsehgewohnheiten von rund drei Millionen Personen.

Die allgegenwärtigen elektronischen Geräte und Sensoren überschwemmen uns geradezu mit Daten. Dieses Projekt soll Nicht-Informatiker in die Lage versetzen, die stetig wachsenden Datenvolumen zu analysieren und auszuwerten, ohne geltende Datenschutzgesetze zu verletzen.

Direct link to Lay Summary Last update: 16.08.2017

Lay Summary (French)

Lead
La société produit des mégadonnées de manière continue et avec une rapidité sans précédent. Il est de ce fait irréaliste de vouloir former un nombre suffisant d’informaticiens pour les collecter et les analyser ces données. Il serait donc préférable de développer de nouveaux moyens d’analyse. Dans ce projet, nous développons un système de traitement, à l’échelle du pétaoctet, respectant la confidentialité et destiné à du matériel informatique standard. Nous mettons premièrement à disposition un langage de programmation convivial basé sur des requêtes traditionnelles mais avec des extensions pour les opérations statistiques et la capacité nécessaire pour des opérations en temps réel.
Lay summary

Dans un deuxième temps, le langage permet aux utilisateurs de préciser le niveau souhaité de confidentialité. Troisièmement, le compilateur système traduit en calculs exécutables les fonctions statistiques et les spécifications en matière de confidentialité. Enfin, l’environnement d’exécution sélectionne la meilleure approche pour optimiser l’exécution en utilisant des systèmes existants (par ex. Apache Flink, Spark Streaming ou Storm).

La production de mégadonnées va bientôt dépasser les capacités de stockage ainsi que celles des experts informatiques en mesure de les traiter. En outre, la question de la protection des données revient toujours davantage sur le tapis. Répondre à ces questions exige ce qu’on appelle des systèmes de traitement des flux, qui analysent en continu les données entrantes, au lieu de les stocker, et permettent aux scientifiques non-informaticiens d’affiner leur analyse tout en préservant la confidentialité. Ce projet pourrait fortement simplifier le développement de nouvelles applications basées sur des analyses de données en temps réel acceptables socialement.

Nous développerons un système d’analyse à l’échelle du pétaoctet (c.-à-d. traitant des millions de gigaoctets) qui permettant à des scientifiques non-informaticiens une analyse à haute performance des flux de données. Notre solution facilitera les opérations statistiques avancées en temps réel et assurera la confidentialité des données. Pour évaluer la robustesse et la fonctionnalité de notre système, nous allons reproduire le système de traitement des données du radiotélescope «Australian Square Kilometre Array Pathfinder». Cela générera jusqu’à 2,5 gigaoctets par seconde de données brutes. Pour évaluer le respect de la confidentialité, nous analyserons les habitudes télévisuelles de quelque trois millions de personnes.

Direct link to Lay Summary Last update: 16.08.2017

Lay Summary (English)

Lead
Society produces data continuously, and at unprecedented speed. As a result, it is increasingly unrealistic to educate a sufficient number of skilled computer scientists to collect and analyse these data. Instead, we need new ways to analyse data as it is being produced. In this project we develop a petabyte-scale, privacy-preserving processing system for commodity (i.e. standard) hardware.
Lay summary

First, we provide a user-friendly programming language based on traditional querying but with extensions for statistical operations and capacity for real-time operations. Second, the language permits users to specify the desired level of privacy. Third, the system compiler translates the statistical functions and privacy specifications into executable computations. Finally, the runtime environment selects the best approach for optimising execution using existing systems (e.g. Apache Flink, Spark Streaming or Storm).

Production of Big Data will soon outpace the availability of both storage and computer science experts who know how to handle such data. Moreover, society is increasingly concerned about data protection. Addressing these issues requires so-called stream-processing systems that continuously analyse incoming data (rather than store it) and allow non-computer scientists to specify its analysis in a privacy-preserving manner. This project could vastly simplify the development of new, societally acceptable applications of real-time data analytics.

We will develop a petabyte-scale analytics system (i.e. processing millions of gigabytes) that enables non-computer scientists to analyse high-performance data streams. Our solution will support real-time advanced statistical operations and ensure the privacy of the data. To evaluate the robustness and functionality of our system, we will replicate the processing pipeline for the Australian Square Kilometre Array Pathfinder radio telescope. This will generate up to 2.5 gigabytes per second of raw data. To evaluate privacy preservation, we will analyse the TV viewing habits of around 3 million individuals.

The ubiquity of electronic devices and sensors is leading society to a data deluge. The results of this project will allow non-computer scientists to efficiently analyse and explore these ever-increasing data sources while adhering to data protection laws.

Direct link to Lay Summary Last update: 16.08.2017

Responsible applicant and co-applicants

Employees

Publications

Publication
Stream Processing: The Matrix Revolutions
PernischovaRomana, RuoschFlorian, Dell'AglioDaniele, BernsteinAbraham (2018), Stream Processing: The Matrix Revolutions, in Proceedings of the 12th International Workshop on Scalable Semantic Web Knowledge Bas, CEUR-WS.org, CEUR-WS.org.
Stream reasoning: A survey and outlookA summary of ten years of research and a vision for the next decade
Dell’Aglio Daniele, Della Valle Emanuele, van Harmelen Frank, Bernstein Abraham (2017), Stream reasoning: A survey and outlookA summary of ten years of research and a vision for the next decade, in Data Science, 1-25.

Collaboration

Group / person Country
Types of collaboration
VU University Amsterdam Netherlands (Europe)
- in-depth/constructive exchanges on approaches, methods or results
- Publication
- Exchange of personnel
Yahoo Research! Great Britain and Northern Ireland (Europe)
- Publication
- Exchange of personnel
Free University of Bozen-Bolzano Italy (Europe)
- in-depth/constructive exchanges on approaches, methods or results
- Publication
- Exchange of personnel
- Industry/business/other use-inspired collaboration
CSRIO Australia (Oceania)
- Industry/business/other use-inspired collaboration

Scientific events

Active participation

Title Type of contribution Title of article or contribution Date Place Persons involved
IFI Colloquium talk Fall 2017 Individual talk Big Data Management and Apache Flink: Key Challenges and (Some) Solutions 23.11.2017 IFI, Switzerland Bernstein Abraham; Duan Pengcheng; Acurana Yasett; Böhlen Michael;


Abstract

We propose a petabyte-scale, stream-oriented data processing system for commodity hardware with the following properties: First, it will provide a declarative language with functional extensions for linear algebra operations. Second, the language will provide the means for defining cross-cutting privacy constrains. Third, the system will have a compiler that translates the functionally enhanced queries and privacy constraints into a stream processing data flow specification where privacy concerns are being considered as far upstream as possible. Finally, the system will contain a self-optimizing run-time environment.
-