Lead
Les systèmes de traduction automatique ont atteint des niveaux de qualité appréciables, grâce aux modèles statistiques à n-grammes de mots, puis aux réseaux de neurones profonds avec de l’apprentissage automatique sur de très grandes quantités de données (textes déjà traduits). Toutefois, la qualité des traductions automatiques de textes complets reste en deçà des humains, notamment à cause des stratégies d’analyse locale utilisées. Intégrer des modules hétérogènes représente un défi considérable pour les approches actuelles, qui modélisent les textes de manière uniforme.

Lay summary

Ce projet vise à intégrer des algorithmes qui considèrent des dépendances à portée variable. Nous étudierons une approche permettant d’appliquer à la demande, lors du processus de traduction automatique, plusieurs types de contraintes à divers niveaux.  Nous visons ainsi à intégrer des résultats de nos précédents travaux ayant abouti à des modules de traitement spécifiques à certains types de relations entre phrases, et qui améliorent la traduction des connecteurs discursifs, des pronoms, des temps verbaux, ainsi que et la cohérence lexicale.  Nous développerons une stratégie pour invoquer ces modules lorsque la traduction du noyau statistique semblera sujette à caution selon des métriques estimant la qualité.

Les solutions développées offriront une approche formalisée pour corriger des erreurs dues à une analyse insuffisante des dépendances éloignées entre phrases.  Nos solutions montreront comment des phénomènes linguistiques complexes peuvent être appris par des systèmes, et utilisés simultanément, sans effets de bord, pour améliorer la qualité d’un texte.  Ces solutions pourront répondre aux besoins croissants de l’industrie de la traduction et de la localisation.