Projekt

Zurück zur Übersicht

Efficient and accurate comparative genomics to make sense of high volume low quality data in biology

Gesuchsteller/in Salamin Nicolas
Nummer 167276
Förderungsinstrument NFP 75 Big Data
Forschungseinrichtung Département d'Ecologie et d'Evolution Faculté de Biologie et de Médecine Université de Lausanne
Hochschule Universität Lausanne - LA
Hauptdisziplin Zoologie
Beginn/Ende 01.04.2017 - 31.03.2020
Bewilligter Betrag 573'911.00
Alle Daten anzeigen

Alle Disziplinen (2)

Disziplin
Zoologie
Informatik

Keywords (5)

high-performance computing; large-scale analyses; data quality; comparative genomics; big data

Lay Summary (Deutsch)

Lead
Dank des technologischen Fortschritts in der Sequenzierung des Erbguts können wir heute das Genom zahlreicher Organismen entschlüsseln. Angesichts dieser Flut von Daten schwankender Qualität stellt sich in der Biologie jedoch die Frage, wie sich solche Datenvolumen effizient und konsistent analysieren lassen.Ziel dieses Projekts ist die Entwicklung neuer Rechenkonzepte zur Verarbeitung genomischer Daten mit schwankender Qualität für einen Vergleich des Erbguts unterschiedlicher Organismen. Mithilfe von Methoden des maschinellen Lernens wollen wir die Interaktionen zwischen den Genen modellieren, um beispielsweise die Entwicklung der Gengruppen zu verstehen, die an Stoffwechselvorgängen beteiligt sind.
Lay summary

Zunächst sollen geeignete Instrumente für die Organisation der genomischen Daten entwickelt und anschliessend vergleichbare biologische Elemente – etwa ähnliche Gene in unterschiedlichen Arten – abgeleitet werden. Auf der Grundlage unterschiedlicher genomischer Daten können weitere Spezies untersucht werden – ein wichtiger Aspekt für das bessere Verständnis der Evolution. Zweitens sollen neue Algorithmen des maschinellen Lernens entwickelt werden, die die Gene mit den interessantesten Merkmalen aus Zehntausenden im Erbgut vorhandenen Genen identifizieren können. Deren intensive Erforschung mithilfe von Modellierungen wird uns ermöglichen, ihre Interaktionen und ihre Entwicklung besser zu verstehen.

Die Bestimmung der für die Entwicklung von Organismen wichtigen Gene hilft uns zu erkennen, welche dieser Gene überlebenswichtige Funktionen steuern. In der Medizin ist es etwa wichtig zu wissen, ob ein Gen, das in einem Modellorganismus (etwa einer Maus) identifiziert wurde, im menschlichen Organismus die gleiche Funktion hat. Um Fragen dieser Art zu beantworten, benötigen wir komplexe Rechenverfahren und hochwertiges Datenmaterial. Daher beschränken sich heutige Verfahren auf wenige, sehr gut erforschte Organismen und lassen die aktuell generierten Datenvolumen geringerer Qualität unberücksichtigt.

Das Projekt aus dem Bereich der Biologie passt insofern perfekt zur Big-Data-Thematik, als es sich mit dem Umfang, der Heterogenität und der Qualität von genomischen Daten befasst. Da Konzepte für das Management und den Vergleich von Daten entwickelt werden sollen, ist es auch für andere Fachbereiche interessant, etwa für die Linguistik. Maschinelles Lernen ist ein zentrales Element der Computerwissenschaften.


Direktlink auf Lay Summary Letzte Aktualisierung: 26.07.2017

Lay Summary (Französisch)

Lead
Les avancées technologiques dans le séquençage de l'ADN facilitent le décryptage du génome de nombreux organismes. Cette masse de données, de qualité variable, constitue un défi pour les biologistes : comment les analyser de manière efficace et cohérente ?Ce projet vise à développer de nouvelles approches computationnelles à même de traiter des données génomiques de qualité variable afin de comparer les génomes de différents organismes. Modéliser les interactions entre les gènes, à l’aide de méthodes d’apprentissage automatique, permettra de comprendre l'évolution de groupes de gènes impliqués, par exemple, dans les voies métaboliques.
Lay summary

Le projet se concentrera tout d’abord sur le développement d’outils capables d’organiser les données génomiques et d’en déduire les éléments biologiques comparables, comme par exemple les gènes similaires entre différentes espèces. Se basant sur des données génomiques de différents types, ils permettront d’analyser davantage d’espèces, un point important pour mieux comprendre les processus impliqués dans l’évolution des espèces. Le second axe consistera à mettre au point de nouveaux algorithmes d’apprentissage automatique à même d’identifier, parmi les dizaines de milliers de gènes présents dans les génomes, lesquels montrent les caractéristiques les plus intéressantes. Leur étude approfondie à l’aide de méthodes de modélisation permettra d’en comprendre les interactions et l’évolution.

Identifier les gènes importants pour le développement des organismes permet de déterminer lesquels sont liés à des fonctions essentielles à leur survie. En médecine, par exemple, savoir si un gène identifié dans un organisme modèle comme la souris possède la même fonction chez l'homme se révèle essentiel. Répondre à de telles questions nécessite des méthodes computationnelles complexes ainsi que des données de qualité. De ce fait, elles se limitent à un petit nombre d'organismes très bien étudiés et font fi de l’énorme quantité de données de moindre qualité actuellement générées.

Le projet s'intègre pleinement dans le cadre de la problématique Big Data en abordant les aspects de taille, d’hétérogénéité et de qualité des données génomiques en biologie. Il a des implications au-delà de cette seule discipline car la mise en place d'approches de gestion et de comparaison de données est essentielle dans d’autres domaines, comme l’analyse du langage. L’apprentissage automatique constitue, lui, un élément clé des sciences computationnelles

Direktlink auf Lay Summary Letzte Aktualisierung: 26.07.2017

Lay Summary (Englisch)

Lead
Technological advances in DNA sequencing are making it easier to decode the genome of numerous organisms. The challenge that this mass of variable-quality data presents for biologists is how to analyse it efficiently and consistently. This project aims to develop new computational approaches capable of processing genomic data of variable quality in order to compare the genomes of different organisms. Modelling the interactions between genes with the help of machine learning methods will make it possible to understand, for example, the evolution of groups of genes involved in metabolic processes.
Lay summary

First of all, the project will focus on developing tools capable of organising genomic data and deducing comparable biological elements from it, such as genes that are similar between different species. Using different types of genomic data, these tools will make it possible to analyse more species, which is important for gaining a better understanding of the processes involved in the evolution of species. The second area of focus will consist in developing new machine learning algorithms capable of identifying which of the tens of thousands of genes present in the genomes show the most interesting characteristics. Studying them in depth with the help of modelling methods will enable their interactions and evolution to be understood.

Identifying the genes that are key to an organism’s development enables scientists to determine which genes relate to functions that are essential to the organism’s survival. In medicine, for example, it is vital to know whether a gene identified in a model organism such as a mouse has the same function in human beings. Answering questions of this kind requires complex computing methods and high-quality data. Such questions are therefore restricted to a small number of organisms that have been studied in great depth and ignore the enormous quantity of poorer-quality data that is currently being generated.

The project’s scope is in full conformity with the issue of Big Data, since it addresses the size, heterogeneity and quality of genomic data in biology. It also has implications that go beyond this single discipline, since establishing approaches for managing and comparing data is essential in other fields, such as language analysis. Moreover, machine learning is a key component of computational sciences.


Direktlink auf Lay Summary Letzte Aktualisierung: 26.07.2017

Verantw. Gesuchsteller/in und weitere Gesuchstellende

Mitarbeitende

Zusammenarbeit

Gruppe / Person Land
Formen der Zusammenarbeit
Gunnar Rätsch Schweiz (Europa)
- vertiefter/weiterführender Austausch von Ansätzen, Methoden oder Resultaten

Abstract

The amount of biological data that is used to study biological and medical questions is increasing drastically. The advances of genomic technologies enable now many research groups to assemble large scale genomic data for a large spectrum of organisms, and the challenge has now shifted from producing to analysing these large amounts of genomic data.Making sense of all that data relies on comparative genomics to identify the conserved or divergent elements, and elucidate the ones that are associated with essential housekeeping functions and those associated with innovation or adaptation. For instance, an important question is whether a gene has the same function in a model organism such as fly or mouse and in humans. However, this simple question leads to complex methodological issues. Finding the corresponding (“orthologous”) genes in different species is not trivial computationally and is dependent on the quality of the data. Characterizing differences between orthologous genes as functionally relevant or inconsequential is also computationally intensive and dependent on data quality.Because of this complexity, typical comparative genomics approaches tend to focus on few high-quality genomes and to analyse each gene family independently. These analyses, however, fail to capitalize on the increase in available data and ignore interaction (co-evolution) among genes.By contrast, in this project, we aim to develop a comparative genomics approach that leverages the abundant but noisy and heterogeneous data generated, and models coevolution of multiple genes in functional modules such as metabolic pathways. To achieve this, we will: 1) combine high- and low-quality genomic data available, with an emphasis on robustness to data incompleteness and inaccuracies, and scalability to tens of thousands of genomes.2) implement stringent quality controls-via statistical tests, empirical benchmarks, and filters;3) develop efficient machine learning algorithms that can cope with orders of magnitude more data.This approach tackles head-on the “variety”, “veracity”, and “volume” aspects of IBM’s framework of Big Data. Our project also has implications outside biological research. Data curation and homology assessment (WP1) are essential in free text and language analyses, while machine learning approaches for hypothesis prioritization (WP2) is a key element in computer science.
-