Projekt

Zurück zur Übersicht

Dapprox: Dependency-ware Approximate Analytics and Processing Platforms

Titel Englisch Dapprox: Dependency-ware Approximate Analytics and Processing Platforms
Gesuchsteller/in Chen Lydia Yiyu
Nummer 167266
Förderungsinstrument NFP 75 Big Data
Forschungseinrichtung IBM Research GmbH
Hochschule Firmen/Privatwirtschaft - FP
Hauptdisziplin Informatik
Beginn/Ende 01.06.2017 - 31.05.2021
Bewilligter Betrag 579'134.00
Alle Daten anzeigen

Alle Disziplinen (2)

Disziplin
Informatik
Mathematik

Keywords (7)

streaming processing systems; workload generator; approximate analytics; time series prediction; VM consolidation; spatial and temporal dependency; MapReduce

Lay Summary (Deutsch)

Lead
Um die Anwendererfahrung zu verbessern, überwachen Rechenzentren laufend ihre Leistung indem sie riesige anfallende Datenmengen analysieren. Dapprox entwickelt Methoden und Anwendungen, um aufgrund von Stichproben Performance-Unregelmässigkeiten in Echtzeit zu erkennen und die Verwaltung der Rechenleistung zu verbessern.
Lay summary

Dapprox verwendet Methoden und Softwareanwendungen, um die Rechenleistung in Echtzeit im Approximationsverfahren zu analysieren. Das Ziel ist, Genauigkeitsanforderungen, maximale Verzögerungen und vorhandene Ressourcen zu berücksichtigen, um potentielle Unregelmässigkeiten voraussagen – und Lösungen vorschlagen – zu können. Dapprox sucht zuerst nach Merkmalen, die auf verschiedenen Servern über eine gewisse Zeit vorkommen; danach werden Stichproben der wichtigsten Daten so verarbeitet, dass die Genauigkeit der Resultate erhalten bleibt. Dapprox zeichnet sich dadurch aus, dass es aufgrund von gemeinsamen Strukturen, die sich im Lauf der Zeit verändern, dynamisch die optimale Datenmenge auswerten kann. Dapprox beinhaltet drei Arbeitspakete: Prognosefunktionen, Echtzeit-Analysefunktionen und Fehlermanagement.

Um die Servicequalität und Zuverlässigkeit von Systemen zu gewährleisten, überwachen Rechenzentren ihre virtuelle und echte Rechenleistung. Die anfallende Datenmenge ist so riesig, dass es fast unmöglich ist, sie in Echtzeit korrekt zu analysieren. Heute verfügbare Methoden sind in der Regel zu einfach und langsam, was zu Verzögerungen bei der Behebung von Performance-Unregelmässigkeiten führt und die Anwendererfahrung beeinträchtigt.

Durch die Analyse von Performance-Daten wollen wir die Rechenleistung in Cloud-Rechenzentren effizienter managen und dadurch die Anwendererfahrung verbessern. Wir werden aber nicht die gesamte Datenmenge analysieren, sondern Approximationsverfahren (das sind auf Stichproben basierende Methoden und Anwendungen) entwickeln, um komplexe Muster von Datenspuren und sogenannten kritischen Zuständen vorauszusagen. Wir werden auch Anwendungen für die Echtzeit-Analyse und die Untersuchung von Unregelmässigkeiten entwickeln. Zusätzlich werden wir Empfehlungen für den Umgang mit Unregelmässigkeiten in Cloud-Rechenzentren erarbeiten.

Direktlink auf Lay Summary Letzte Aktualisierung: 27.07.2017

Lay Summary (Französisch)

Lead
Pour améliorer l’expérience de l’utilisateur, des centres de calcul surveillent continuellement les grandes quantités de données entrantes. Les mégadonnées ainsi engendrées permettent de réunir des enseignements utiles. Dapprox développe des méthodes et des outils de prévision des anomalies de performance en temps réel, en sélectionnant un sous-ensemble de données clés et en proposant des solutions en vue d’une meilleure gestion des ressources. Dapprox comporte un ensemble de méthodes et d’outils logiciels d’analyse rapides et en temps réel selon un mode approximatif. Il vise à prévoir de potentielles anomalies (et de proposer des solutions) en prenant simultanément en compte exigences d’exactitude, délais maximaux et ressources disponibles.
Lay summary

Dapprox cherche d’abord des caractérisques communes aux serveurs, puis ne traite qu’un sous-ensemble de données clés d’une façon qui ne nuit pas à l’exactitude des résultats. Dapprox peut notamment sélectionner et traiter de façon dynamique le volume optimal de données, basées sur des structures communes qui changent au cours du temps. Dapprox englobe trois types de tâches: analyses prédictives attentives aux dépendances pour les prévisions, analyses approximatives du streaming pour les données vivantes et gestion des anomalies du centre de données.

Afin de garantir la qualité du service et la fiabilité du système, des centres de données contrôlent et collectent les rapports de performance de nombreuses ressources informatiques réelles et virtuelles. Le volume des données ainsi générées est tellement grand qu’il est presque impossible de les analyser correctement en temps réel. Les analyses existantes tendent à être rudimentaires et lentes, induisant des retards dans la réparation des anomalies de performance et altérant significativement l’expérience de l’utilisateur.

Notre objectif est d’analyser des données de performance afin de mieux gérer les ressources informatiques dans les centres de calcul, ceci afin d’améliorer l’expérience de l’utilisateur. Au lieu d’analyser toutes les données, nous développerons des analyses approximatives – des méthodes et des outils basés sur des sous-ensembles de données – afin de prévoir des modèles complexes de séries d’utilisation de ressources et ce qu’on appelle des états critiques. Nous allons aussi créer des outils pour le traitement et l’analyse d’anomalie en temps réel. Enfin, nous proposerons des programmes de gestion des anomalies aux centres de calcul


Direktlink auf Lay Summary Letzte Aktualisierung: 27.07.2017

Lay Summary (Englisch)

Lead
To enhance user experience, datacentres monitor millions of resource usage series, resulting in big data to gather useful insights. Dapprox derives methods and tools to predict performance anomalies in real time by selecting a key subset of data and proposing solutions to better manage resources.
Lay summary

Dapprox is a set of methods and software tools for fast and approximate analyses of resource usage series in real time. The goal of Dapprox is to predict potential anomalies (and propose solutions) by simultaneously taking into account accuracy requirements, maximum delays and available resources. Dapprox first looks for characteristics that are common across servers over time, and then processes only subsets of “key” data in a way that does not sacrifice the accuracy of the results. Particularly, Dapprox can dynamically select and process the optimal amount of data, based on common structures that change over time. Dapprox comprises three work packages: dependency-aware predictive analytics for forecasting, approximate streaming analytics for live data and datacentre anomaly management.

To ensure quality of service and system reliability, datacentres monitor and collect performance logs from many virtual and physical computing resources. The sheer quantity of data generated is so large that it is nearly impossible to always correctly analyse it in real time. Existing analyses tend to be unsophisticated and slow, which leads to delays in addressing performance anomalies and significantly degrades end-user experience.

Our goal is to analyse performance data to better manage computing resources in cloud datacentres and thus to enhance user experience. But rather than analysing all of the data, we will develop approximate analytics – i.e. methods and tools based on subsets of data – to predict complex patterns of resource usage series and so-called critical states. We will also create tools for real-time processing and anomaly analysis. Finally, we will propose anomaly management policies for cloud datacentres.


Direktlink auf Lay Summary Letzte Aktualisierung: 27.07.2017

Verantw. Gesuchsteller/in und weitere Gesuchstellende

Mitarbeitende

Name Institut

Projektpartner

Publikationen

Publikation
Ease.ml: Towards Multi-tenant Resource Sharing for Machine Learning Workloads
Li Tian, Zhong Jie, Liu Ji, Wu Wentao, Zhang Ce (2018), Ease.ml: Towards Multi-tenant Resource Sharing for Machine Learning Workloads, in PVLDB, 11(5), 607-620.
Synchronous Multi-GPU Training for Deep Learning with Low-Precision Communications: An Empirical Study
Grubic Demjan, Tam Leo, Alistarh Dan, Zhang Ce (2018), Synchronous Multi-GPU Training for Deep Learning with Low-Precision Communications: An Empirical Study, in Proceedings of the 21th International Conference on Extending Database Technology, {EDBT} 2018, Vien, 145-156, 145-156.
sPARE: Partial Replication for Multi-tier Applications in the Cloud
Birke Robert, Perez Juan F., Qiu Zhan, Borkqvist Mathias, Chen Lydia Y. (2017), sPARE: Partial Replication for Multi-tier Applications in the Cloud, in IEEE Transactions on Services Computing, 1-1.
Dual Scaling VMs and Queries: Cost-Effective Latency Curtailment
Pérez Juan F., Birke Robert, Björkqvist Mathias, Chen Lydia Y. (2017), Dual Scaling VMs and Queries: Cost-Effective Latency Curtailment, in 37th {IEEE} International Conference on Distributed Computing Systems, {ICDCS} 2017, Atlanta, GA, US, 988-998, IEEE, GA, USA988-998.
AccStream: Accuracy-Aware Overload Management for Stream Processing Systems
Sun Haiyang, Birke Robert, Binder Walter, Björkqvist Mathias, Chen Lydia Y. (2017), AccStream: Accuracy-Aware Overload Management for Stream Processing Systems, in 2017 {IEEE} International Conference on Autonomic Computing, {ICAC} 2017, Columbus, OH, USA, July 17, 39-48, IEEE, OH, USA39-48.
Can Decentralized Algorithms Outperform Centralized Algorithms? A Case Study for Decentralized Parallel Stochastic Gradient Descent
Lian Xiangru, Zhang Ce, Zhang Huan, Hsieh Cho-Jui, Zhang Wei, Liu Ji (2017), Can Decentralized Algorithms Outperform Centralized Algorithms? A Case Study for Decentralized Parallel Stochastic Gradient Descent, in Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Proces, LA5336-5346, 5336-5346.
FPGA-Accelerated Dense Linear Machine Learning: A Precision-Convergence Trade-Off
Kara Kaan, Alistarh Dan, Alonso Gustavo, Mutlu Onur, Zhang Ce (2017), FPGA-Accelerated Dense Linear Machine Learning: A Precision-Convergence Trade-Off, in 25th {IEEE} Annual International Symposium on Field-Programmable Custom Computing Machines, {FCCM} 2, 10(12), 160-167, IEEE, NYC, USA 10(12), 160-167.
Making Neighbors Quiet: An Approach to Detect Virtual Resource Contention
Vallone Joel, Birke Robert, Chen Lydia (2017), Making Neighbors Quiet: An Approach to Detect Virtual Resource Contention, in IEEE Transactions on Services Computing, 1-1.
Meeting Latency Target in Transient Burst: A Case on Spark Streaming
Birke Robert, Björkqvist Mathias, Kalyvianaki Evangelia, Chen Lydia Y. (2017), Meeting Latency Target in Transient Burst: A Case on Spark Streaming, in 2017 {IEEE} International Conference on Cloud Engineering, {IC2E} 2017, Vancouver, BC, Canada, April, 149-158, 149-158.
MLog: Towards Declarative In-Database Machine Learning
Li Xupeng, Cui Bin, Chen Yiru, Wu Wentao, Zhang Ce (2017), MLog: Towards Declarative In-Database Machine Learning, in PVLDB, 10(12), 1933-1936.
On the latency-accuracy tradeoff in approximate MapReduce jobs
Pérez Juan F., Birke Robert, Chen Lydia Y. (2017), On the latency-accuracy tradeoff in approximate MapReduce jobs, in 2017 {IEEE} Conference on Computer Communications, {INFOCOM} 2017, Atlanta, GA, USA, May 1-4, 2017, 1-9, 1-9.
Power of redundancy: Designing partial replication for multi-tier applications
Birke Robert, Pérez Juan F., Qiu Zhan, Björkqvist Mathias, Chen Lydia Y. (2017), Power of redundancy: Designing partial replication for multi-tier applications, in 2017 {IEEE} Conference on Computer Communications, {INFOCOM} 2017, Atlanta, GA, USA, May 1-4, 2017, 1-9, 1-9.
ZipML: Training Linear Models with End-to-End Low Precision, and a Little Bit of Deep Learning
Zhang Hantian, Li Jerry, Kara Kaan, Alistarh Dan, Liu Ji, Zhang Ce (2017), ZipML: Training Linear Models with End-to-End Low Precision, and a Little Bit of Deep Learning, in Proceedings of the 34th International Conference on Machine Learning, {ICML} 2017, Sydney, NSW, Aust, 70, 4035-4043, PMLR, Australia 70, 4035-4043.

Zusammenarbeit

Gruppe / Person Land
Formen der Zusammenarbeit
INSA-Lyon Frankreich (Europa)
- vertiefter/weiterführender Austausch von Ansätzen, Methoden oder Resultaten
- Publikation
The Ohio State University Vereinigte Staaten von Amerika (Nordamerika)
- vertiefter/weiterführender Austausch von Ansätzen, Methoden oder Resultaten
- Publikation
The Pennsylvania State University Vereinigte Staaten von Amerika (Nordamerika)
- vertiefter/weiterführender Austausch von Ansätzen, Methoden oder Resultaten
- Publikation
- Austausch von Mitarbeitern
City University of London Grossbritannien und Nordirland (Europa)
- vertiefter/weiterführender Austausch von Ansätzen, Methoden oder Resultaten
- Publikation
Chinese Academy of Science China (Asien)
- vertiefter/weiterführender Austausch von Ansätzen, Methoden oder Resultaten
- Publikation
University of Neuchâtel Schweiz (Europa)
- vertiefter/weiterführender Austausch von Ansätzen, Methoden oder Resultaten
Umea University Schweden (Europa)
- vertiefter/weiterführender Austausch von Ansätzen, Methoden oder Resultaten
- Austausch von Mitarbeitern
University De Rosario Kolumbien (Südamerika)
- vertiefter/weiterführender Austausch von Ansätzen, Methoden oder Resultaten
- Publikation
- Austausch von Mitarbeitern
University of Warwick Grossbritannien und Nordirland (Europa)
- vertiefter/weiterführender Austausch von Ansätzen, Methoden oder Resultaten
- Publikation
University of Lugano Schweiz (Europa)
- vertiefter/weiterführender Austausch von Ansätzen, Methoden oder Resultaten
- Publikation
- Austausch von Mitarbeitern
Technical University of Dresden Deutschland (Europa)
- vertiefter/weiterführender Austausch von Ansätzen, Methoden oder Resultaten
- Forschungsinfrastrukturen

Wissenschaftliche Veranstaltungen

Aktiver Beitrag

Titel Art des Beitrags Titel des Artikels oder Beitrages Datum Ort Beteiligte Personen
NIPS Vortrag im Rahmen einer Tagung Can Decentralized Algorithms Outperform Centralized Algorithms? A Case Study for Decentralized Parallel Stochastic Gradient Descent. 04.12.2017 LA, Vereinigte Staaten von Amerika Zhang Hantian;
Seminar Talk Einzelvortrag Approximate Bigdata Discovery 27.11.2017 University of Helsinki, Finnland Chen Lydia Yiyu;
Grenoble Workshop on Autonomic Computing and Control Vortrag im Rahmen einer Tagung “Approximate Learning for Bigdata Discoveries 23.10.2017 Grenoble, Frankreich Chen Lydia Yiyu;
ICML Vortrag im Rahmen einer Tagung ZipML: Training Linear Models with End-to-End Low Precision, and a Little Bit of Deep Learning 17.07.2017 Sydney, Österreich Zhang Hantian;
IEEE ICAC Vortrag im Rahmen einer Tagung AccStream: Accuracy-aware Overload Management for Stream Processing Systems. 16.07.2017 Columbus, Ohio, Vereinigte Staaten von Amerika Chen Lydia Yiyu;
IEEE ICDCS Vortrag im Rahmen einer Tagung “Dual Scaling VMs and Queries: Costeffective Latency Curtailment 26.06.2017 Atlanta, GA, Vereinigte Staaten von Amerika Birke Robert; Chen Lydia Yiyu;


Abstract

To ensure quality of service to end-users and system dependability, data centers online monitor and collect large amounts of performance log data from virtual and physical resources resulting in a performance big data that shows strong temporal and spatial dependency. Predictive and reactive analytics on such big data are batch processed offline to extract insights on resource demands, performance anomalies, and resource management. Due to the high volume, velocity, and variety of performance logs, it is not feasible to conduct extensive and precise analysis in a real time fashion. Indeed, the state of practice tends to perform a subset of simple analyses, e.g., summary reports of the server failures, with a significant delay that leads to slow responsiveness in addressing performance anomalies and degrades users’ computing experience significantly. While the state of art predictive analytics and platforms have laid solid ground work on approximate computing that trades the analysis accuracy for analysis latency, they have yet to explore the dependency structure embedded in streams of performance logs and further incorporate that as a unique point to approximately process performance big data.We propose Dapprox, a dependency-aware approximation analytics and stream processing platform that aims to timely conduct multiple predictive and anomaly analyses by simultaneously considering the accuracy requirements, latency targets, and available computing/storage resources. The fundamental question Dapprox addresses is, given the performance and resource constraints, which data should be processed, e.g., new v.s. historical and local v.s. remote and at what speed. Dapprox will specifically explore the spatial and temporal dependency structure of the performance logs to selectively process only a subset across times and among servers. To such an end, we structure Dapprox into three workpackages.In workpackage one, we will derive approximate predictive analytics that aim to approximately predict multi-scale resource usage series and occurrences of critical states by leveraging spatial correlation among usage and event time series. We will design streaming and distributed learning methods that can efficiently integrate data across multiple time scales and distributed models, to further shorten the model training time and lower the requirement on the data footprint. In workpackage two, we will develop an approximation platform for real-time processing of a large number of monitoring logs and provide critical analyses based on existing big data engines, e.g., Spark Streaming and Flink. Particularly, the platform will feature a dependency-aware multistage controller and scheduler, which can delay, drop, or process data inputs at different stages, depending on the accuracy and latency targets, as well as the dependency structure in the data. We will specifically provide both centralized and distributed designs addressing the scalability challenge. As our ultimate goal is to apply analytics to improve the resource management of cloud data centers and the users quality of experience, we will propose approximation-aware anomaly management policies in workpackage three that cope with the inaccurate demand and performance estimates produced by the proposed approximate analytics. Moreover, we will develop a set of workload generators which summarize the mathematical models and parameter distributions derived from the performance big data, with an aim of overcoming the privacy issues of using big data.The proposed research will give us the opportunity to make an immediate impact on how to discover values in big data of performance logs at today’s production data centers, how to efficiently process approximation jobs on big data platforms, and how to better improve users computing experience in the cloud. We expect that data center practitioners, researchers, and users of big data analytics and cloud computing platforms can benefit from the proposed research. As our proposed research is based on the generic structure of big data, i.e., strong spatial and temporal dependencies, we expect a wide applicability of the proposed approaches to different types of big data, e.g., time series collected from IoT devices, to different system scenarios, e.g., energy optimized data centers.
-