Projekt

Zurück zur Übersicht

Hybrid Machine Translation for Morphologically Rich Languages

Titel Englisch Hybrid Machine Translation for Morphologically Rich Languages
Gesuchsteller/in Volk Martin
Nummer 149841
Förderungsinstrument Projektförderung (Abt. I-III)
Forschungseinrichtung Institut für Computerlinguistik Universität Zürich
Hochschule Universität Zürich - ZH
Hauptdisziplin Weitere Sprachen
Beginn/Ende 01.01.2014 - 31.07.2015
Bewilligter Betrag 124'410.00
Alle Daten anzeigen

Alle Disziplinen (2)

Disziplin
Weitere Sprachen
Informatik

Keywords (4)

Machine Translation; Corpus Annotation; Hybrid Translation System; Lesser-Resourced Languages

Lay Summary (Deutsch)

Lead
In diesem Projekt entwickeln wir Maschinelle Übersetzungssysteme von Spanisch nach Deutsch und Spanisch nach Quechua. Die Wörter der beiden Zielsprachen weisen eine grosse Vielfalt an Formen auf, Quechua in noch stärkerem Masse als Deutsch. Das bietet interessante Herausforderungen für die automatische Übersetzung in diese Sprachen. Unsere Arbeit versteht sich auch als Beitrag zum Aufbau von Sprachtechnologie für eine wenig beachtete Sprache, Quechua.
Lay summary

Maschinelle Übersetzungssysteme wie Google Translate liefern die besten Ergebnisse für Sprachen, die wenige unterschiedliche Wortformen aufweisen. Englische Verben, z.B., haben typischerweise nur 4 Formen (z.B. see, sees, saw, seen) während deutsche Verben 10 und mehr Formen aufweisen (z.B. sehen, sehe, siehst, sieht, seht, sah, sahst, sah, sahen, gesehen). Deshalb bezeichnet man Deutsch als eine morphologisch reiche Sprache.

In diesem Projekt arbeiten wir an der Entwicklung von Übersetzungssystemen von Spanisch nach Deutsch und von Spanisch nach Quechua. Quechua ist eine Familie von indigenen Sprachen, die vor allem in Bolivien, Ecuador und Peru von gesamt 10 Millionen Menschen gesprochen wird. Es ist morphologisch noch reicher als das Deutsche und bietet damit eine grosse Herausforderung für die automatische Übersetzung.

Viele Übersetzungssysteme basieren auf statistischen Berechnungen über grossen übersetzten Textsammlungen mit mehreren Millionen Wörtern. Aber für Spanisch-Quechua gibt es solche Mengen übersetzter Texte nicht. Deshalb entwickeln wir ein regel-basiertes System für dieses Sprachpaar, bei dem wir ein zweisprachiges Wörterbuch sowie Übersetzungsregeln manuell zusammen stellen. Um Mehrdeutigkeiten aufzulösen (z.B. kann das spanische Wort manzana sowohl Apfel als auch Häuserblock bedeuten) nutzen wir Korpushäufigkeiten.

Diese gewinnen wir aus grossen monolingualen Textsammlungen für Spanisch und Deutsch. Ausserdem haben wir für Spanisch-Quechua eine kleine Menge von Übersetzungen mit hochwertigen grammatischen Strukturen versehen. Wir hoffen, damit die fehlenden Übersetzungsstatistiken teilweise kompensieren zu können.

Das Projekt unterstützt den Aufbau von Sprachtechnologie für Quechua und arbeitet zu diesem Zweck intensiv mit Partnern in Peru zusammen.

 

Direktlink auf Lay Summary Letzte Aktualisierung: 16.11.2013

Verantw. Gesuchsteller/in und weitere Gesuchstellende

Mitarbeitende

Publikationen

Publikation
Building a Spanish-German Dictionary for Hybrid MT
Göhring Anne (2014), Building a Spanish-German Dictionary for Hybrid MT, in Proceedings of the 3rd Workshop on Hybrid Approaches to Translation (HyTra)@EACL, Göteborg.
Machine Learning applied to Rule-Based Machine Translation
Rios Annette, Göhring Anne, Machine Learning applied to Rule-Based Machine Translation, in Babych B., Lambert P., Rapp R., Costa-Jussà M., Banchs R.E., Eberle K. (ed.), Springer International, Berlin.

Zusammenarbeit

Gruppe / Person Land
Formen der Zusammenarbeit
Juan Cruz, University of Cuzco Peru (Südamerika)
- vertiefter/weiterführender Austausch von Ansätzen, Methoden oder Resultaten
- Forschungsinfrastrukturen
- Austausch von Mitarbeitern
Eckhard Bick/Southern Denmark University Dänemark (Europa)
- vertiefter/weiterführender Austausch von Ansätzen, Methoden oder Resultaten
IXA Group, University of the Basque Country Spanien (Europa)
- vertiefter/weiterführender Austausch von Ansätzen, Methoden oder Resultaten
- Forschungsinfrastrukturen
- Austausch von Mitarbeitern
Richard Castro, UNSAAC, Cuzco Peru (Südamerika)
- vertiefter/weiterführender Austausch von Ansätzen, Methoden oder Resultaten
- Publikation
- Forschungsinfrastrukturen
- Austausch von Mitarbeitern

Veranstaltungen zum Wissenstransfer



Selber organisiert

Titel Datum Ort
Treffen mit Quechua-kundigen Sprachtechnologie-Forschern 06.10.2014 Zürich, Schweiz

Kommunikation mit der Öffentlichkeit

Kommunikation Titel Medien Ort Jahr
Weitere Aktivitäten Evaluation des maschinellen Übersetzungssystems Spanisch-Quechua International 2015

Verbundene Projekte

Nummer Titel Start Förderungsinstrument
169888 Rich Context in Neural Machine Translation 01.01.2017 Projekte
132219 Exploiting Parallel Treebanks for Hybrid Machine Translation 01.01.2011 Projektförderung (Abt. I-III)
126999 Domain-specific Statistical Machine Translation 01.01.2010 Projekte

Abstract

Hybrid Machine Translation (MT) profits from both data-driven and rule-based methods. In a translation scenario involving a low-resource language, it is reasonable to build a rule-based core system and enhance this prototype in a second step with statistical methods.In the first two years of the project we have implemented rule-based MT systems for Spanish-German and Spanish-Quechua. In the third year, we will improve those prototypes with statistical methods, e.g. use language models on the target side to rank translation options. Not only will we evaluate both rule-based prototypes compared to the hybrid systems, but we also will compare the two language pairs Spanish-German and Spanish-Quechua. This will be especially interesting due to the fact that we have much more textual material for German than for Cuzco Quechua: We will measure at what rate the hybrid system improves by increasing the amount of training material for the statistical parts, and we will be able to draw conclusions on how the Spanish-Quechua system can profit from more texts (monolingual and bilingual).We have already trained and evaluated several statistical MT systems Spanish-German that will serve as a baseline for further experiments with our rule-based and hybrid prototypes.In addition to the MT systems, we have prepared a trilingual parallel corpus of 4000 sentences in German, Spanish and Quechua for treebanking. The Spanish-German part has been annotated and aligned completely, while the Spanish-Quechua treebank will be finished in the third year. The annotation of the Quechua part takes more time, as a suitable annotation scheme had to be developed as part of this project. The treebanks will contribute to the improvement of the MT systems: We will use extracted transfer rules from the parallel trees to expand the grammatical coverage of our MT systems.The translation systems, as well as the treebanks will be made available through a user-friendly web interface. There are several reasons to apply for a one year extension of this project: Firstly, we want to increase the coverage of our machine translation systems by adding and evaluating different statistical parts to the rule-based prototypes. We will use machine-learning techniques to overcome the shortcomings of the prototypes (e.g. how to treat unknown words) and optimize the translation systems.Secondly, there are several challenging linguistic phenomena in both language pairs that we want to explore further. Those include, among others, the distinction of exclusive and inclusive first person plural forms in Quechua, but also the treatment of German possessive pronouns that are marked for gender of the possessor. As in the source language Spanish possessive pronouns are not distinguished by gender, this information needs to be inferred from the context.Thirdly, we will bundle a basic language resource kit (BLARK) for Cuzco Quechua, that contains all the tools and linguistic resources we created in this project. As part of this effort we will intensify our cooperation with the Universidad Nacional San Antonio Abad del Cusco (UNSAAC) that has resulted from our visit to Peru in the first year.Finally, we want to improve the Spanish-Quechua version of Bilingwis, our parallel concordance system. At the moment, the word alignments are extracted from a bilingual dictionary because we did not have enough parallel texts for this language pair to achieve good results with statistical methods. As we have several more parallel texts collected during our trip to Peru, we will add those to the parallel corpus in Bilingwis and improve not only the alignment quality, but also increase the number of translation options for a given query.
-