Project

Back to overview

Tighten-it-All: Big Data Integration for Loosely-Structured Data

Applicant Cudré-Mauroux Philippe
Number 167320
Funding scheme NRP 75 Big Data
Research institution Département d'Informatique Université de Fribourg
Institution of higher education University of Fribourg - FR
Main discipline Information Technology
Start/End 01.09.2017 - 31.08.2021
Approved amount 750'653.00
Show all

Keywords (3)

Loosely-Structured Data; Knowledge Graphs; Best-Effort Integration

Lay Summary (German)

Lead
Die Integration grosser Datenmengen ist heute kostspielig und mühsam, da sich diese Aufgabe nur sehr schwer automatisieren lässt. Ziel dieses Projekts ist, neue Techniken für eine effiziente, automatische Integration grosser Datenvolumen zu entwickeln, die beispielsweise aus dem Internet oder den sozialen Medien stammen können. Das Projekt besteht aus zwei Teilen. Im ersten Schritt sollen neue Techniken zur Datenextraktion entwickelt und getestet werden, die es ermöglichen, die verfügbaren Daten automatisch zu kennzeichnen, die zwischen ihnen bestehenden Beziehungen zu erkennen und die Verteilung ihrer Werte zu modellieren.
Lay summary

Diese Informationen werden dann in einem zweiten Schritt zur Analyse und zur Integration der verfügbaren Daten genutzt. Die neuen Techniken müssen so ausgelegt sein, dass sie die Erstellung individueller Datenschemata unterstützen und Datenbank-Abstraktionsschichten liefern können. Letztlich will das Projekt Verfahren bereitstellen, mit deren Hilfe sich Datensätze einfach und ohne Verlust der individuellen Merkmale und Geschichte kombinieren lassen.

Einer der wichtigsten Vorteile von «Big Data» liegt in der Kombination mehrerer Datenquellen, um ein bestimmtes Phänomen modellieren zu können. Die meisten der heute angewendeten Verfahren beruhen auf einer Analyse des Datenschemas, und hier insbesondere der Metadaten, welche die Struktur der zu integrierenden Daten eindeutig bestimmen. In der Praxis sind diese Schemata allerdings oft unvollständig, so etwa bei Daten aus sozialen Netzwerken oder dem Internet. Da diese heute noch nicht automatisch kombiniert werden können, bleibt den Spezialisten nur die manuelle Aufbereitung und Integration. Der hieraus resultierende Zeitverlust ist eines der Hauptprobleme bei der Nutzung von Big Data.

Ziel dieses Projekts ist die Entwicklung neuer Techniken für eine automatisierte oder halb automatisierte Datenintegration. Da die Struktur der Daten im Voraus oft nicht bekannt ist, besteht die zentrale Herausforderung unseres Forschungsprojekts darin, diese Struktur im Nachhinein zu ermitteln, indem wir ausgehend von den verfügbaren Daten ein Datenschema rekonstruieren.

Aufgrund des Missverhältnisses zwischen der unaufhörlich wachsenden Menge an verfügbaren Daten und der begrenzten Zeit, die für ihre Verarbeitung zur Verfügung steht, kommt diesem Projekt eine ganz besondere Bedeutung zu. Die Ergebnisse tragen dazu bei, dass sich der Prozess der Aufbereitung von Rohdaten für die Modellierung und Visualisierung wesentlich beschleunigen wird.

Direct link to Lay Summary Last update: 16.08.2017

Lay Summary (French)

Lead
L’intégration des mégadonnées représente actuellement une tâche coûteuse et fastidieuse, car son automatisation se révèle très difficile. Ce projet vise à développer de nouvelles techniques pour intégrer de manière efficace et automatique les mégadonnées issues du Web ou des réseaux sociaux, par exemple. Ce projet s’articule en deux parties. La première consiste à développer puis tester de nouvelles techniques d’extraction d’information afin de caractériser de manière automatique les données disponibles, de comprendre les relations entre elles et de modéliser la distribution de leurs valeurs. Dans un deuxième temps, ces informations seront utilisées pour faciliter l’analyse et l’intégration des données disponibles.
Lay summary

Il sera nécessaire de développer de nouvelles techniques capables de créer des schémas de données à la demande et de fournir des couches d’abstraction. L’objectif final est d’offrir des procédés permettant de combiner de manière aisée les jeux de données tout en préservant leurs particularités et leur historique.

Une des clés de voûte du "Big Data" consiste à combiner plusieurs sources d’information pour modéliser un phénomène particulier. La plupart des méthodes actuelles se basent sur l’analyse du schéma des données et notamment sur les métadonnées qui définissent de manière univoque la structure des informations à combiner. Néanmoins, ces schémas s’avèrent souvent incomplets en pratique, par exemple pour les données provenant de réseaux sociaux ou du Web. Vu qu’il est pour l’instant impossible de les combiner de manière automatique, les spécialistes n’ont d’autre choix que de les préparer et de les intégrer manuellement. La perte de temps qui en résulte constitue l’un des problèmes majeurs du Big Data.

Ce projet a pour but la mise au point de nouvelles techniques d’intégration automatique ou semi-automatique de données. Leur structure n’étant souvent pas définie a priori, l’enjeu central de nos recherches est de la comprendre a posteriori, en reconstruisant un schéma de données à partir des données disponibles.

Ce projet revêt une importance toute particulière de par la disproportion entre le volume toujours croissant des données disponibles et le temps limité à disposition des analystes pour les traiter. Les résultats de ce projet contribueront à accélérer de manière substantielle le processus menant des données brutes aux modélisations et visualisations. De nombreux domaines nécessitant de combiner des jeux de données hétérogènes (tels que les smart cities, la médecine personnalisée ou encore l'e-science) sont susceptibles d'en bénéficier pour lesquels combiner plusieurs jeux de données, avec comme résultat des analyses et des modèles plus puissants.


Direct link to Lay Summary Last update: 16.08.2017

Lay Summary (English)

Lead
Integrating metadata is currently an expensive and tedious task because it has proved very difficult to automate. This project aims to develop new techniques for the efficient, automatic integration of metadata taken from the Web or social networks, for example. This project is divided into two parts. The first part consists in developing and then testing new techniques for extracting data in order to characterise the available data automatically, understand the relationships between pieces of data and model their value distribution. Second, this information will be used to facilitate the analysis and integration of the available data.
Lay summary

It will be necessary to develop new techniques capable of creating data patterns on demand and providing abstraction layers. The ultimate goal is to provide processes which allow data sets to be easily combined while preserving their specific features and history.

One of the cornerstones of Big Data consists in combining several sources of information in order to model a specific phenomenon. Most current methods are based on analysis of data patterns, and particularly on the metadata that unambiguously defines the structure of the information to be combined. Nevertheless, in practice these patterns often turn out to be incomplete, e.g. for data originating from social networks or the Web. Given that it is currently impossible to combine this data automatically, experts have no choice other than to prepare and integrate it manually. The resulting loss of time is one of the major problems of Big Data.

The aim of this project is to devise new techniques for the automatic or semi-automatic integration of data. Because the data structure is often not defined in advance, the central challenge for our research is to understand it retrospectively, by reconstructing patterns using the available data.

This project is particularly important because of the disproportion between the ever-increasing volume of data available and the limited time available for analysts to process it. The results of this project will help to substantially speed up the process of turning raw data into models and visualisations. Numerous fields that require the combination of heterogeneous data sets (e.g. smart cities, personalised healthcare and e-science) stand to benefit from new methods of combining different data sets, resulting in more powerful analyses and models.

Direct link to Lay Summary Last update: 16.08.2017

Responsible applicant and co-applicants

Employees

Publications

Publication
Distant Supervision from Knowledge Graphs
Smirnova Alisa, Audiffren Julien, Cudre-Mauroux Philippe (2018), Distant Supervision from Knowledge Graphs, in Sherif Sakr and Albert Zomaya (ed.), Springer, Berlin, 1-7.
Knowledge Graph Embeddings
Rosso Paolo, Yang Dingqi, Cudre-Mauroux Philippe (2018), Knowledge Graph Embeddings, in Sherif Sakr and Albert Zomaya (ed.), Springer, Berlin, 1-7.
Deep Learning for Image Based Bibliographic Data Extraction
Bhardwaj Akansha, Mercier Dominik, Dengel Andreas, Ahmed Sheraz (2017), Deep Learning for Image Based Bibliographic Data Extraction, in ICONIP , Springer, Berlin.
APCNN: Tackling Class Imbalance in Relation Extraction through Aggregated Piecewise Convolutional Neural Networks
SmirnovaAlisa, AudiffrenJulien, Cudre-MaurouxPhilippe, APCNN: Tackling Class Imbalance in Relation Extraction through Aggregated Piecewise Convolutional Neural Networks, in SDS 2019, IEEE, -.
Playing Atari with Six Neurons.
CuccuGiuseppe, TogeliusJulian, Cudre-MaurouxPhilippe, Playing Atari with Six Neurons., in AAMAS 2019, MontrealAAMAS, Montreal.

Abstract

Loosely-structured data, which exhibit some degree of structure but whose schemas are unknown, are prominent in Big Data. Yet, they are typically neither properly cataloged nor integrated, leading to absurd processes in which Data Scientists manually have to browse, select, and massage the data. Instead, this proposal proposes an overhaul of integration techniques for loosely-structured information in order to match the volume, velocity and variety of such data. The scientific contribution of this project is divided into two distinct though highly interweaved endeavors: i) the creation of new information extraction and semantic lifting approaches to probabilistically interconnect loosely-structured content from Big Data repositories through incrementally-updated knowledge graphs, and ii) the design of new logical abstractions responsible for crisply exposing the resulting integrated information to Data Scientists through higher-level interfaces.
-