Projekt

Zurück zur Übersicht

neXtpresso, accelerating annotation via automated approaches

Gesuchsteller/in Bairoch Amos
Nummer 153437
Förderungsinstrument Projekte
Forschungseinrichtung Institut Suisse de Bioinformatique Centre Médical Universitaire Université de Genève
Hochschule Swiss Institute of Bioinformatics - SIB
Hauptdisziplin Molekularbiologie
Beginn/Ende 01.04.2014 - 31.03.2017
Bewilligter Betrag 529'619.00
Alle Daten anzeigen

Alle Disziplinen (2)

Disziplin
Molekularbiologie
Informatik

Keywords (4)

Text Mining, Bioinformatics, Biocuration, Protein functions

Lay Summary (Französisch)

Lead
Titre du projet de recherche neXtpresso, automatisierte Ansätze für die Beschleunigung manueller Datenextraktion neXtpresso, application de méthodes informatiques pour accélérer la biocuration neXtpresso, accelerating annotation via automated approaches Lead Les bases de données résumant les connaissances dans le domaine des sciences de la vie servent à de nombreux chercheurs ainsi qu'au grand public. L'entrée des données dans ces bases de données peine à suivre le taux auquel ces données sont produites dans les laboratoires de recherche. Ce projet propose d'utiliser des methods informatiques pour améliorer l'efficacité de l'entrée de données dans les bases de données scientifiques.
Lay summary

 Contenu et objectifs du travail de recherche

 La principale source de connaissance en biologie est la littérature scientifique. La capture de ces connaissances afin de les stocker dans des base de données pour qu’elles soient directement utilisables par les chercheurs fait partie de ce que l’on appelle la «biocuration». Il s’agit d’un processus utilisant l’expertise d’annotateurs, des chercheurs qui travaillent au service de ces banques de données afin de synthétiser et représenter de manière fiable ces connaissances.

 Ce processus manuel doit faire face à l’augmentation significative du volume de publications scientifiques. Le projet neXtpresso se propose d’augmenter la productivité de ce processus en  développant un modèle de plateforme d'annotation  qui s’articule autour de ce que l’on appelle la  fouille de données textuelles (text mining). Le projet explore en particulier l'intégration d'outils d'extraction d'informations pour des tâches de mise à jour de la base de connaissance neXtProt, qui rassemble des informations sur l’ensemble des protéines humaines. Les informations ciblées par ce projet incluent la fonction de ces protéines, leurs interactions avec d'autres protéines, ainsi que leur implication dans des maladies génétiques ou des cancers. Les défis principaux associés à ce projet sont: 1. définir un workflow interactif intégrant les outils de fouille de texte; 2. exploiter d'une manière homogène les connaissances déjà disponibles dans neXtprot pour guider les tâches de recherche d'information et éviter la redondance; 3. développer un corpus de méthodes capables d'estimer la fiabilité des associations proposées par les outils de fouille de texte.

Contexte scientifique et social du projet de recherche

 Ce travail va contribuer au développement de méthodes plus efficaces pour la capture de données, et donc a des retombées potentiellemment très larges pour toute la communauté scientifique.

Direktlink auf Lay Summary Letzte Aktualisierung: 28.03.2014

Verantw. Gesuchsteller/in und weitere Gesuchstellende

Mitarbeitende

Publikationen

Publikation
Deep Question Answering for protein annotation.
Gobeill Julien, Gaudinat Arnaud, Pasche Emilie, Vishnyakova Dina, Gaudet Pascale, Bairoch Amos, Ruch Patrick (2015), Deep Question Answering for protein annotation., in Database : the journal of biological databases and curation, 2015, 1-9.
neXtA5: accelerating annotation of articles via automated approaches in neXtProt.
Mottin Luc, Gobeill Julien, Pasche Emilie, Michel Pierre-André, Cusin Isabelle, Gaudet Pascale, Ruch Patrick (2016), neXtA5: accelerating annotation of articles via automated approaches in neXtProt., in Database : the journal of biological databases and curation, 2016, 1-9.
Triage by Ranking to Support the Curation of Protein Interactions
Mottin Luc (accepted), Triage by Ranking to Support the Curation of Protein Interactions, in Database.

Abstract

We aim to develop new methods to fully integrate text mining and biocuration instruments. Text mining tools are commonly used by biocurators. Such a usage is often achieved by integrating more or less optionally some text mining tools (search engines, named-entity recognizers...) in the end-user workflow. neXtpresso intends to built an integrated solution, which will support protein annotators in finding data that is (1) supported by experimental data; (2) specific; (3) non-redundant (4) of high confidence. The access to these data will be prioritized according to a flexible annotation model directly derived from the neXtprot database, which comprehensively cover proteomics-related entities such as protein, cells, variants, diseases, anatomy, and Gene Ontology axis (biological processes, molecular functions and subcellular locations). The ranking algorithms will be designed as a multimodal protein-centric search task, where the users will be uniquely offered the possibility to exclude any facts he wants. Such an original exclusion function will thus make possible to account for well-known and/or already curated relationships, including contradictory statements. Finally, the integration of the resulting novelty tracking platform in the CALIPHO annotation solution will be comprehensively evaluated.