Projekt

Zurück zur Übersicht

Smarter Model Learning in Syntax-based Statistical Machine Translation

Gesuchsteller/in Sennrich Rico
Nummer 148717
Förderungsinstrument Early Postdoc.Mobility
Forschungseinrichtung School of Informatics University of Edinburgh
Hochschule Institution ausserhalb der Schweiz - IACH
Hauptdisziplin Schwerpunkt Germanistik und Anglistik
Beginn/Ende 01.11.2013 - 30.04.2015
Alle Daten anzeigen

Alle Disziplinen (2)

Disziplin
Schwerpunkt Germanistik und Anglistik
Informatik

Keywords (6)

English; German; Statistical Machine Translation; Syntax; Grammaticality; Morphology

Lay Summary (Deutsch)

Lead
Statistische Maschinelle Übersetzung funktioniert nicht für alle Sprachpaare gleich gut. Die Morphologie und Syntax des Deutschen bereitet bisherigen Modellen in der Maschinellen Übersetzung erhebliche Schwierigkeiten, und im Forschungsprojekt wurden neue, syntaxbasierte Modelle und Algorithmen entwickelt, um die Grammatikalität von Maschinellen Übersetzungssystemen zu verbessern.
Lay summary

Syntaktische Modelle zur Statistischen Maschinellen Übersetzung sind grundsätzlich attraktiver als die derzeit dominanten, linguistisch unmotivierten phrasenbasierten Modelle. Die Modellierung von morphologischen und syntaktischen Strukturen ist aber auch in syntaktischen Modellen unausgereift.

Für die Übersetzung in morphologisch komplexe Sprachen wie Deutsch muss ein Übersetzungssystem in der Lage sein, Wörter zu bilden, die in den Trainingsdaten des Systems nicht vorkommen, zum Beispiel neue Komposita wie "Handtaschengebühr". Ich habe morphologische Ressourcen zur Kompositatrennung angewendet und die Repräsentation syntaktischer Übersetzungssysteme so erweitert, dass sie produktiv neue Komposita generieren können.

Ein weiteres Problem syntaktischer Modelle ist Übergeneralisierung. Wegen Unabhängigkeitsannahmen im Übersetzungsmodell werden grammatikalische Phänomene wie Kongruenz nur ungenügend forciert. Ich habe ein neues, relationales Dependenz-Sprachmodell entwickelt, welches Kongruenz, Subkategorisierung und syntaktische Kollokationen modelliert und die Grammatikalität von automatischen Übersetzungen verbessert. Dank dem Einsatz syntaktischer Metriken während der Modellentwicklung wurden weitere Verbesserungen in der Grammatikalität des Systems erreicht.

Im Forschungsprojekt habe ich auch neue Algorithmen für die Übersetzung mit syntaktischen Modellen entwickelt, wodurch die Klasse der syntaktischen Übersetzungssysteme deutlich effizienter geworden sind.

Insgesamt hat das Forschungsprojekt substantielle Verbesserungen in der Qualität und Effizienz von syntaktischer Übersetzung erzielt, und den bisherigen Stand der Forschung klar übertroffen.

Direktlink auf Lay Summary Letzte Aktualisierung: 30.04.2015

Verantw. Gesuchsteller/in und weitere Gesuchstellende

Publikationen

Publikation
A Joint Dependency Model of Morphological and Syntactic Structure for Statistical Machine Translation
Sennrich Rico, Haddow Barry (2015), A Joint Dependency Model of Morphological and Syntactic Structure for Statistical Machine Translation, in Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, Lisbon, PortugalAssociation for Computational Linguistics.
A tree does not make a well-formed sentence: Improving syntactic string-to-tree statistical machine translation with more linguistic knowledge
Sennrich Rico, Williams Philip, Huck Matthias (2015), A tree does not make a well-formed sentence: Improving syntactic string-to-tree statistical machine translation with more linguistic knowledge, in Computer Speech & Language, 32(1), 27-45.
Edinburgh's Syntax-Based Systems at WMT 2015
Williams Philip, Sennrich Rico, Nadejde Maria, Huck Matthias, Koehn Philipp (2015), Edinburgh's Syntax-Based Systems at WMT 2015, in Proceedings of the Tenth Workshop on Statistical Machine Translation, Lisbon, PortugalAssociation for Computational Linguistics.
Modelling and Optimizing on Syntactic N-Grams for Statistical Machine Translation
Sennrich Rico (2015), Modelling and Optimizing on Syntactic N-Grams for Statistical Machine Translation, in Transactions of the Association for Computational Linguistics, 3, 169-182.
A CYK+ Variant for SCFG Decoding Without a Dot Chart
Sennrich Rico (2014), A CYK+ Variant for SCFG Decoding Without a Dot Chart, in Proceedings of SSST-8, Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation, Association for Computational Linguistics.
Edinburgh{\rq}s Syntax-Based Systems at WMT 2014
Williams Philip, Sennrich Rico, Nadejde Maria, Huck Matthias, Hasler Eva, Koehn Philipp (2014), Edinburgh{\rq}s Syntax-Based Systems at WMT 2014, in Proceedings of the Ninth Workshop on Statistical Machine Translation, Association for Computational Linguistics.
EU-BRIDGE MT: Combined Machine Translation
Freitag Markus, Peitz Stephan, Wuebker Joern, Ney Hermann, Huck Matthias, Sennrich Rico, Durrani Nadir, Nadejde Maria, Williams Philip, Koehn Philipp, Herrmann Teresa, Cho Eunah, Waibel Alex (2014), EU-BRIDGE MT: Combined Machine Translation, in Proceedings of the Ninth Workshop on Statistical Machine Translation, Association for Computational Linguistics.

Zusammenarbeit

Gruppe / Person Land
Formen der Zusammenarbeit
RWTH Aachen University Deutschland (Europa)
- Publikation
University of Edinburgh Grossbritannien und Nordirland (Europa)
- vertiefter/weiterführender Austausch von Ansätzen, Methoden oder Resultaten
- Publikation
- Forschungsinfrastrukturen
Karlsruhe Institute of Technology Deutschland (Europa)
- Publikation

Wissenschaftliche Veranstaltungen

Aktiver Beitrag

Titel Art des Beitrags Titel des Artikels oder Beitrages Datum Ort Beteiligte Personen
Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation Einzelvortrag A CYK+ Variant for SCFG Decoding Without a Dot Chart 25.10.2014 Doha, Quatar Sennrich Rico;


Abstract

Today, automatic translations from and into German are relatively bad compared to other language pairs, if we compare Statistical Machine Translation (SMT) systems with the same learning algorithms and similar amounts of training data. One reason are syntactic phenomena in German such as non-contiguous verb complexes and long-range inter-dependencies such as subject-verb agreement, which are poorly modelled in traditional SMT models. Syntactic models have been proposed which have the potential to overcome these technical limitations.However, syntactic models introduce new challenges, primarily the fact that syntactic constraints at learning time result in sparser data compared to models without syntactic constraints. Thus, the constraints are typically relaxed to avoid a huge penalty in performance because of sparsity.In this balancing-act of specific, but sparse, and (over-)generalized, less sparse translation units, I propose novel methods to achieve the necessary level of generalization, while discriminatively learning to penalize overgeneralized rules. I also plan to utilize the rich information from syntactic parsers to learn to better model morphology in SMT.The goal of this research project is to advance the state of the art of SMT into German, yielding better translations in terms of word order and morphosyntactic correctness.
-