Project

Back to overview

neXtpresso, accelerating annotation via automated approaches

Applicant Bairoch Amos
Number 153437
Funding scheme Project funding (Div. I-III)
Research institution Institut Suisse de Bioinformatique Centre Médical Universitaire Université de Genève
Institution of higher education Swiss Institute of Bioinformatics - SIB
Main discipline Molecular Biology
Start/End 01.04.2014 - 31.03.2017
Approved amount 534'082.00
Show all

All Disciplines (2)

Discipline
Molecular Biology
Information Technology

Keywords (4)

Text Mining; Bioinformatics; Biocuration; Protein functions

Lay Summary (French)

Lead
Titre du projet de rechercheneXtpresso, automatisierte Ansätze für die Beschleunigung manueller DatenextraktionneXtpresso, application de méthodes informatiques pour accélérer la biocurationneXtpresso, accelerating annotation via automated approachesLeadLes bases de données résumant les connaissances dans le domaine des sciences de la vie servent à de nombreux chercheurs ainsi qu'au grand public. L'entrée des données dans ces bases de données peine à suivre le taux auquel ces données sont produites dans les laboratoires de recherche. Ce projet propose d'utiliser des methods informatiques pour améliorer l'efficacité de l'entrée de données dans les bases de données scientifiques.
Lay summary

 Contenu et objectifs du travail de recherche

 La principale source de connaissance en biologie est la littérature scientifique. La capture de ces connaissances afin de les stocker dans des base de données pour qu’elles soient directement utilisables par les chercheurs fait partie de ce que l’on appelle la «biocuration». Il s’agit d’un processus utilisant l’expertise d’annotateurs, des chercheurs qui travaillent au service de ces banques de données afin de synthétiser et représenter de manière fiable ces connaissances.

 Ce processus manuel doit faire face à l’augmentation significative du volume de publications scientifiques. Le projet neXtpresso se propose d’augmenter la productivité de ce processus en  développant un modèle de plateforme d'annotation  qui s’articule autour de ce que l’on appelle la  fouille de données textuelles (text mining). Le projet explore en particulier l'intégration d'outils d'extraction d'informations pour des tâches de mise à jour de la base de connaissance neXtProt, qui rassemble des informations sur l’ensemble des protéines humaines. Les informations ciblées par ce projet incluent la fonction de ces protéines, leurs interactions avec d'autres protéines, ainsi que leur implication dans des maladies génétiques ou des cancers. Les défis principaux associés à ce projet sont: 1. définir un workflow interactif intégrant les outils de fouille de texte; 2. exploiter d'une manière homogène les connaissances déjà disponibles dans neXtprot pour guider les tâches de recherche d'information et éviter la redondance; 3. développer un corpus de méthodes capables d'estimer la fiabilité des associations proposées par les outils de fouille de texte.

Contexte scientifique et social du projet de recherche

 Ce travail va contribuer au développement de méthodes plus efficaces pour la capture de données, et donc a des retombées potentiellemment très larges pour toute la communauté scientifique.

Direct link to Lay Summary Last update: 28.03.2014

Responsible applicant and co-applicants

Employees

Publications

Publication
neXtA5: accelerating annotation of articles via automated approaches in neXtProt.
Mottin Luc, Gobeill Julien, Pasche Emilie, Michel Pierre-André, Cusin Isabelle, Gaudet Pascale, Ruch Patrick (2016), neXtA5: accelerating annotation of articles via automated approaches in neXtProt., in Database : the journal of biological databases and curation, 2016, 1-9.
Deep Question Answering for protein annotation.
Gobeill Julien, Gaudinat Arnaud, Pasche Emilie, Vishnyakova Dina, Gaudet Pascale, Bairoch Amos, Ruch Patrick (2015), Deep Question Answering for protein annotation., in Database : the journal of biological databases and curation, 2015, 1-9.
Triage by Ranking to Support the Curation of Protein Interactions
Mottin Luc, Triage by Ranking to Support the Curation of Protein Interactions, in Database.

Abstract

We aim to develop new methods to fully integrate text mining and biocuration instruments. Text mining tools are commonly used by biocurators. Such a usage is often achieved by integrating more or less optionally some text mining tools (search engines, named-entity recognizers...) in the end-user workflow. neXtpresso intends to built an integrated solution, which will support protein annotators in finding data that is (1) supported by experimental data; (2) specific; (3) non-redundant (4) of high confidence. The access to these data will be prioritized according to a flexible annotation model directly derived from the neXtprot database, which comprehensively cover proteomics-related entities such as protein, cells, variants, diseases, anatomy, and Gene Ontology axis (biological processes, molecular functions and subcellular locations). The ranking algorithms will be designed as a multimodal protein-centric search task, where the users will be uniquely offered the possibility to exclude any facts he wants. Such an original exclusion function will thus make possible to account for well-known and/or already curated relationships, including contradictory statements. Finally, the integration of the resulting novelty tracking platform in the CALIPHO annotation solution will be comprehensively evaluated.
-