Lead
Dank des technologischen Fortschritts in der Sequenzierung des Erbguts können wir heute das Genom zahlreicher Organismen entschlüsseln. Angesichts dieser Flut von Daten schwankender Qualität stellt sich in der Biologie jedoch die Frage, wie sich solche Datenvolumen effizient und konsistent analysieren lassen.Ziel dieses Projekts ist die Entwicklung neuer Rechenkonzepte zur Verarbeitung genomischer Daten mit schwankender Qualität für einen Vergleich des Erbguts unterschiedlicher Organismen. Mithilfe von Methoden des maschinellen Lernens wollen wir die Interaktionen zwischen den Genen modellieren, um beispielsweise die Entwicklung der Gengruppen zu verstehen, die an Stoffwechselvorgängen beteiligt sind.

Lay summary

Zunächst sollen geeignete Instrumente für die Organisation der genomischen Daten entwickelt und anschliessend vergleichbare biologische Elemente – etwa ähnliche Gene in unterschiedlichen Arten – abgeleitet werden. Auf der Grundlage unterschiedlicher genomischer Daten können weitere Spezies untersucht werden – ein wichtiger Aspekt für das bessere Verständnis der Evolution. Zweitens sollen neue Algorithmen des maschinellen Lernens entwickelt werden, die die Gene mit den interessantesten Merkmalen aus Zehntausenden im Erbgut vorhandenen Genen identifizieren können. Deren intensive Erforschung mithilfe von Modellierungen wird uns ermöglichen, ihre Interaktionen und ihre Entwicklung besser zu verstehen.

Die Bestimmung der für die Entwicklung von Organismen wichtigen Gene hilft uns zu erkennen, welche dieser Gene überlebenswichtige Funktionen steuern. In der Medizin ist es etwa wichtig zu wissen, ob ein Gen, das in einem Modellorganismus (etwa einer Maus) identifiziert wurde, im menschlichen Organismus die gleiche Funktion hat. Um Fragen dieser Art zu beantworten, benötigen wir komplexe Rechenverfahren und hochwertiges Datenmaterial. Daher beschränken sich heutige Verfahren auf wenige, sehr gut erforschte Organismen und lassen die aktuell generierten Datenvolumen geringerer Qualität unberücksichtigt.

Das Projekt aus dem Bereich der Biologie passt insofern perfekt zur Big-Data-Thematik, als es sich mit dem Umfang, der Heterogenität und der Qualität von genomischen Daten befasst. Da Konzepte für das Management und den Vergleich von Daten entwickelt werden sollen, ist es auch für andere Fachbereiche interessant, etwa für die Linguistik. Maschinelles Lernen ist ein zentrales Element der Computerwissenschaften.