Lead
Les avancées technologiques dans le séquençage de l'ADN facilitent le décryptage du génome de nombreux organismes. Cette masse de données, de qualité variable, constitue un défi pour les biologistes : comment les analyser de manière efficace et cohérente ?Ce projet vise à développer de nouvelles approches computationnelles à même de traiter des données génomiques de qualité variable afin de comparer les génomes de différents organismes. Modéliser les interactions entre les gènes, à l’aide de méthodes d’apprentissage automatique, permettra de comprendre l'évolution de groupes de gènes impliqués, par exemple, dans les voies métaboliques.

Lay summary

Le projet se concentrera tout d’abord sur le développement d’outils capables d’organiser les données génomiques et d’en déduire les éléments biologiques comparables, comme par exemple les gènes similaires entre différentes espèces. Se basant sur des données génomiques de différents types, ils permettront d’analyser davantage d’espèces, un point important pour mieux comprendre les processus impliqués dans l’évolution des espèces. Le second axe consistera à mettre au point de nouveaux algorithmes d’apprentissage automatique à même d’identifier, parmi les dizaines de milliers de gènes présents dans les génomes, lesquels montrent les caractéristiques les plus intéressantes. Leur étude approfondie à l’aide de méthodes de modélisation permettra d’en comprendre les interactions et l’évolution.

Identifier les gènes importants pour le développement des organismes permet de déterminer lesquels sont liés à des fonctions essentielles à leur survie. En médecine, par exemple, savoir si un gène identifié dans un organisme modèle comme la souris possède la même fonction chez l'homme se révèle essentiel. Répondre à de telles questions nécessite des méthodes computationnelles complexes ainsi que des données de qualité. De ce fait, elles se limitent à un petit nombre d'organismes très bien étudiés et font fi de l’énorme quantité de données de moindre qualité actuellement générées.

Le projet s'intègre pleinement dans le cadre de la problématique Big Data en abordant les aspects de taille, d’hétérogénéité et de qualité des données génomiques en biologie. Il a des implications au-delà de cette seule discipline car la mise en place d'approches de gestion et de comparaison de données est essentielle dans d’autres domaines, comme l’analyse du langage. L’apprentissage automatique constitue, lui, un élément clé des sciences computationnelles