Lead
Die Integration grosser Datenmengen ist heute kostspielig und mühsam, da sich diese Aufgabe nur sehr schwer automatisieren lässt. Ziel dieses Projekts ist, neue Techniken für eine effiziente, automatische Integration grosser Datenvolumen zu entwickeln, die beispielsweise aus dem Internet oder den sozialen Medien stammen können. Das Projekt besteht aus zwei Teilen. Im ersten Schritt sollen neue Techniken zur Datenextraktion entwickelt und getestet werden, die es ermöglichen, die verfügbaren Daten automatisch zu kennzeichnen, die zwischen ihnen bestehenden Beziehungen zu erkennen und die Verteilung ihrer Werte zu modellieren.

Lay summary

Diese Informationen werden dann in einem zweiten Schritt zur Analyse und zur Integration der verfügbaren Daten genutzt. Die neuen Techniken müssen so ausgelegt sein, dass sie die Erstellung individueller Datenschemata unterstützen und Datenbank-Abstraktionsschichten liefern können. Letztlich will das Projekt Verfahren bereitstellen, mit deren Hilfe sich Datensätze einfach und ohne Verlust der individuellen Merkmale und Geschichte kombinieren lassen.

Einer der wichtigsten Vorteile von «Big Data» liegt in der Kombination mehrerer Datenquellen, um ein bestimmtes Phänomen modellieren zu können. Die meisten der heute angewendeten Verfahren beruhen auf einer Analyse des Datenschemas, und hier insbesondere der Metadaten, welche die Struktur der zu integrierenden Daten eindeutig bestimmen. In der Praxis sind diese Schemata allerdings oft unvollständig, so etwa bei Daten aus sozialen Netzwerken oder dem Internet. Da diese heute noch nicht automatisch kombiniert werden können, bleibt den Spezialisten nur die manuelle Aufbereitung und Integration. Der hieraus resultierende Zeitverlust ist eines der Hauptprobleme bei der Nutzung von Big Data.

Ziel dieses Projekts ist die Entwicklung neuer Techniken für eine automatisierte oder halb automatisierte Datenintegration. Da die Struktur der Daten im Voraus oft nicht bekannt ist, besteht die zentrale Herausforderung unseres Forschungsprojekts darin, diese Struktur im Nachhinein zu ermitteln, indem wir ausgehend von den verfügbaren Daten ein Datenschema rekonstruieren.

Aufgrund des Missverhältnisses zwischen der unaufhörlich wachsenden Menge an verfügbaren Daten und der begrenzten Zeit, die für ihre Verarbeitung zur Verfügung steht, kommt diesem Projekt eine ganz besondere Bedeutung zu. Die Ergebnisse tragen dazu bei, dass sich der Prozess der Aufbereitung von Rohdaten für die Modellierung und Visualisierung wesentlich beschleunigen wird.