Project

Back to overview

Efficient and accurate comparative genomics to make sense of high volume low quality data in biology

Applicant Salamin Nicolas
Number 167276
Funding scheme NRP 75 Big Data
Research institution Département d'Ecologie et d'Evolution Faculté de Biologie et de Médecine Université de Lausanne
Institution of higher education University of Lausanne - LA
Main discipline Zoology
Start/End 01.04.2017 - 31.03.2021
Approved amount 573'911.00
Show all

All Disciplines (2)

Discipline
Zoology
Information Technology

Keywords (5)

high-performance computing; large-scale analyses; data quality; comparative genomics; big data

Lay Summary (German)

Lead
Dank des technologischen Fortschritts in der Sequenzierung des Erbguts können wir heute das Genom zahlreicher Organismen entschlüsseln. Angesichts dieser Flut von Daten schwankender Qualität stellt sich in der Biologie jedoch die Frage, wie sich solche Datenvolumen effizient und konsistent analysieren lassen.Ziel dieses Projekts ist die Entwicklung neuer Rechenkonzepte zur Verarbeitung genomischer Daten mit schwankender Qualität für einen Vergleich des Erbguts unterschiedlicher Organismen. Mithilfe von Methoden des maschinellen Lernens wollen wir die Interaktionen zwischen den Genen modellieren, um beispielsweise die Entwicklung der Gengruppen zu verstehen, die an Stoffwechselvorgängen beteiligt sind.
Lay summary

Zunächst sollen geeignete Instrumente für die Organisation der genomischen Daten entwickelt und anschliessend vergleichbare biologische Elemente – etwa ähnliche Gene in unterschiedlichen Arten – abgeleitet werden. Auf der Grundlage unterschiedlicher genomischer Daten können weitere Spezies untersucht werden – ein wichtiger Aspekt für das bessere Verständnis der Evolution. Zweitens sollen neue Algorithmen des maschinellen Lernens entwickelt werden, die die Gene mit den interessantesten Merkmalen aus Zehntausenden im Erbgut vorhandenen Genen identifizieren können. Deren intensive Erforschung mithilfe von Modellierungen wird uns ermöglichen, ihre Interaktionen und ihre Entwicklung besser zu verstehen.

Die Bestimmung der für die Entwicklung von Organismen wichtigen Gene hilft uns zu erkennen, welche dieser Gene überlebenswichtige Funktionen steuern. In der Medizin ist es etwa wichtig zu wissen, ob ein Gen, das in einem Modellorganismus (etwa einer Maus) identifiziert wurde, im menschlichen Organismus die gleiche Funktion hat. Um Fragen dieser Art zu beantworten, benötigen wir komplexe Rechenverfahren und hochwertiges Datenmaterial. Daher beschränken sich heutige Verfahren auf wenige, sehr gut erforschte Organismen und lassen die aktuell generierten Datenvolumen geringerer Qualität unberücksichtigt.

Das Projekt aus dem Bereich der Biologie passt insofern perfekt zur Big-Data-Thematik, als es sich mit dem Umfang, der Heterogenität und der Qualität von genomischen Daten befasst. Da Konzepte für das Management und den Vergleich von Daten entwickelt werden sollen, ist es auch für andere Fachbereiche interessant, etwa für die Linguistik. Maschinelles Lernen ist ein zentrales Element der Computerwissenschaften.


Direct link to Lay Summary Last update: 26.07.2017

Lay Summary (French)

Lead
Les avancées technologiques dans le séquençage de l'ADN facilitent le décryptage du génome de nombreux organismes. Cette masse de données, de qualité variable, constitue un défi pour les biologistes : comment les analyser de manière efficace et cohérente ?Ce projet vise à développer de nouvelles approches computationnelles à même de traiter des données génomiques de qualité variable afin de comparer les génomes de différents organismes. Modéliser les interactions entre les gènes, à l’aide de méthodes d’apprentissage automatique, permettra de comprendre l'évolution de groupes de gènes impliqués, par exemple, dans les voies métaboliques.
Lay summary

Le projet se concentrera tout d’abord sur le développement d’outils capables d’organiser les données génomiques et d’en déduire les éléments biologiques comparables, comme par exemple les gènes similaires entre différentes espèces. Se basant sur des données génomiques de différents types, ils permettront d’analyser davantage d’espèces, un point important pour mieux comprendre les processus impliqués dans l’évolution des espèces. Le second axe consistera à mettre au point de nouveaux algorithmes d’apprentissage automatique à même d’identifier, parmi les dizaines de milliers de gènes présents dans les génomes, lesquels montrent les caractéristiques les plus intéressantes. Leur étude approfondie à l’aide de méthodes de modélisation permettra d’en comprendre les interactions et l’évolution.

Identifier les gènes importants pour le développement des organismes permet de déterminer lesquels sont liés à des fonctions essentielles à leur survie. En médecine, par exemple, savoir si un gène identifié dans un organisme modèle comme la souris possède la même fonction chez l'homme se révèle essentiel. Répondre à de telles questions nécessite des méthodes computationnelles complexes ainsi que des données de qualité. De ce fait, elles se limitent à un petit nombre d'organismes très bien étudiés et font fi de l’énorme quantité de données de moindre qualité actuellement générées.

Le projet s'intègre pleinement dans le cadre de la problématique Big Data en abordant les aspects de taille, d’hétérogénéité et de qualité des données génomiques en biologie. Il a des implications au-delà de cette seule discipline car la mise en place d'approches de gestion et de comparaison de données est essentielle dans d’autres domaines, comme l’analyse du langage. L’apprentissage automatique constitue, lui, un élément clé des sciences computationnelles

Direct link to Lay Summary Last update: 26.07.2017

Lay Summary (English)

Lead
Technological advances in DNA sequencing are making it easier to decode the genome of numerous organisms. The challenge that this mass of variable-quality data presents for biologists is how to analyse it efficiently and consistently. This project aims to develop new computational approaches capable of processing genomic data of variable quality in order to compare the genomes of different organisms. Modelling the interactions between genes with the help of machine learning methods will make it possible to understand, for example, the evolution of groups of genes involved in metabolic processes.
Lay summary

First of all, the project will focus on developing tools capable of organising genomic data and deducing comparable biological elements from it, such as genes that are similar between different species. Using different types of genomic data, these tools will make it possible to analyse more species, which is important for gaining a better understanding of the processes involved in the evolution of species. The second area of focus will consist in developing new machine learning algorithms capable of identifying which of the tens of thousands of genes present in the genomes show the most interesting characteristics. Studying them in depth with the help of modelling methods will enable their interactions and evolution to be understood.

Identifying the genes that are key to an organism’s development enables scientists to determine which genes relate to functions that are essential to the organism’s survival. In medicine, for example, it is vital to know whether a gene identified in a model organism such as a mouse has the same function in human beings. Answering questions of this kind requires complex computing methods and high-quality data. Such questions are therefore restricted to a small number of organisms that have been studied in great depth and ignore the enormous quantity of poorer-quality data that is currently being generated.

The project’s scope is in full conformity with the issue of Big Data, since it addresses the size, heterogeneity and quality of genomic data in biology. It also has implications that go beyond this single discipline, since establishing approaches for managing and comparing data is essential in other fields, such as language analysis. Moreover, machine learning is a key component of computational sciences.


Direct link to Lay Summary Last update: 26.07.2017

Responsible applicant and co-applicants

Employees

Publications

Publication
OMAmer: tree-driven and alignment-free protein assignment to subfamilies outperforms closest sequence approaches
Rossier Victor, Warwick Vesztrocy Alex, Robinson-Rechavi Marc, Dessimoz Christophe (2021), OMAmer: tree-driven and alignment-free protein assignment to subfamilies outperforms closest sequence approaches, in Bioinformatics, btab219.

Collaboration

Group / person Country
Types of collaboration
Gunnar Rätsch Switzerland (Europe)
- in-depth/constructive exchanges on approaches, methods or results

Scientific events

Active participation

Title Type of contribution Title of article or contribution Date Place Persons involved
SIB Days Talk given at a conference OMAmer: tree-driven and alignment-free protein assignment to subfamilies outperforms closest sequence approaches 09.06.2020 Virtual event, Switzerland Dessimoz Christophe; Robinson-Rechavi Marc; Rossier Victor;
Quest for Orthologs 6 Poster Alignment-free and Duplication-aware Gene Family Assignments using Hierarchical Orthologous Groups 31.07.2019 Okazaki, Japan Dessimoz Christophe; Rossier Victor;
ISMB/ECCB 2019 Poster Alignment-free and Duplication-aware Gene Family Assignments using Hierarchical Orthologous Groups 21.07.2019 Basel, Switzerland Robinson-Rechavi Marc; Dessimoz Christophe; Rossier Victor;


Knowledge transfer events

Active participation

Title Type of contribution Date Place Persons involved


Associated projects

Number Title Start Funding scheme
199775 In the light of evolution 01.05.2021 Agora
198691 An interdisciplinary study of arthropod moulting: linking genotype, phenotype and life history evolution 01.03.2021 Sinergia
186397 An integrated evolutionary and functional characterisation of the Drosophila immune peptidic secretome 01.07.2019 Sinergia
183723 Embracing Phylogenetic Incongruence Among Genetic Loci 01.09.2019 SNSF Professorships

Abstract

The amount of biological data that is used to study biological and medical questions is increasing drastically. The advances of genomic technologies enable now many research groups to assemble large scale genomic data for a large spectrum of organisms, and the challenge has now shifted from producing to analysing these large amounts of genomic data.Making sense of all that data relies on comparative genomics to identify the conserved or divergent elements, and elucidate the ones that are associated with essential housekeeping functions and those associated with innovation or adaptation. For instance, an important question is whether a gene has the same function in a model organism such as fly or mouse and in humans. However, this simple question leads to complex methodological issues. Finding the corresponding (“orthologous”) genes in different species is not trivial computationally and is dependent on the quality of the data. Characterizing differences between orthologous genes as functionally relevant or inconsequential is also computationally intensive and dependent on data quality.Because of this complexity, typical comparative genomics approaches tend to focus on few high-quality genomes and to analyse each gene family independently. These analyses, however, fail to capitalize on the increase in available data and ignore interaction (co-evolution) among genes.By contrast, in this project, we aim to develop a comparative genomics approach that leverages the abundant but noisy and heterogeneous data generated, and models coevolution of multiple genes in functional modules such as metabolic pathways. To achieve this, we will: 1) combine high- and low-quality genomic data available, with an emphasis on robustness to data incompleteness and inaccuracies, and scalability to tens of thousands of genomes.2) implement stringent quality controls-via statistical tests, empirical benchmarks, and filters;3) develop efficient machine learning algorithms that can cope with orders of magnitude more data.This approach tackles head-on the “variety”, “veracity”, and “volume” aspects of IBM’s framework of Big Data. Our project also has implications outside biological research. Data curation and homology assessment (WP1) are essential in free text and language analyses, while machine learning approaches for hypothesis prioritization (WP2) is a key element in computer science.
-