Lead
In diesem Projekt entwickeln wir Maschinelle Übersetzungssysteme von Spanisch nach Deutsch und Spanisch nach Quechua. Die Wörter der beiden Zielsprachen weisen eine grosse Vielfalt an Formen auf, Quechua in noch stärkerem Masse als Deutsch. Das bietet interessante Herausforderungen für die automatische Übersetzung in diese Sprachen. Unsere Arbeit versteht sich auch als Beitrag zum Aufbau von Sprachtechnologie für eine wenig beachtete Sprache, Quechua.

Lay summary

Maschinelle Übersetzungssysteme wie Google Translate liefern die besten Ergebnisse für Sprachen, die wenige unterschiedliche Wortformen aufweisen. Englische Verben, z.B., haben typischerweise nur 4 Formen (z.B. see, sees, saw, seen) während deutsche Verben 10 und mehr Formen aufweisen (z.B. sehen, sehe, siehst, sieht, seht, sah, sahst, sah, sahen, gesehen). Deshalb bezeichnet man Deutsch als eine morphologisch reiche Sprache.

In diesem Projekt arbeiten wir an der Entwicklung von Übersetzungssystemen von Spanisch nach Deutsch und von Spanisch nach Quechua. Quechua ist eine Familie von indigenen Sprachen, die vor allem in Bolivien, Ecuador und Peru von gesamt 10 Millionen Menschen gesprochen wird. Es ist morphologisch noch reicher als das Deutsche und bietet damit eine grosse Herausforderung für die automatische Übersetzung.

Viele Übersetzungssysteme basieren auf statistischen Berechnungen über grossen übersetzten Textsammlungen mit mehreren Millionen Wörtern. Aber für Spanisch-Quechua gibt es solche Mengen übersetzter Texte nicht. Deshalb entwickeln wir ein regel-basiertes System für dieses Sprachpaar, bei dem wir ein zweisprachiges Wörterbuch sowie Übersetzungsregeln manuell zusammen stellen. Um Mehrdeutigkeiten aufzulösen (z.B. kann das spanische Wort manzana sowohl Apfel als auch Häuserblock bedeuten) nutzen wir Korpushäufigkeiten.

Diese gewinnen wir aus grossen monolingualen Textsammlungen für Spanisch und Deutsch. Ausserdem haben wir für Spanisch-Quechua eine kleine Menge von Übersetzungen mit hochwertigen grammatischen Strukturen versehen. Wir hoffen, damit die fehlenden Übersetzungsstatistiken teilweise kompensieren zu können.

Das Projekt unterstützt den Aufbau von Sprachtechnologie für Quechua und arbeitet zu diesem Zweck intensiv mit Partnern in Peru zusammen.