Lead
Europarl ist eine große Textsammlung mit den Äusserungen aus dem EU-Parlament und deren Übersetzungen in die EU-Sprachen. Für jede Sprache analysieren wir die Sätze in diesen Texten automatisch bezüglich Wortklassen und grammatischen Funktionen, und wir berechnen die sprachübergreifenden Satzentsprechungen. Das Ergebnis ist eine wertvolle Ressource für die automatische Sprachverarbeitung und für linguistische Forschungen. Die Computerlinguisten im Projekt beschäftigen sich mit der Verarbeitung und Speicherung von mehreren 100 Millionen Wörtern sowie dem effizienten Zugriff auf die Wörter und die linguistischen Zusatzinformationen. Die Linguisten untersuchen sprachliche Muster in diesem Datenmeer. Insbesondere interessieren sie sich für Unterschiede im Artikelgebrauch zwischen Englisch, Deutsch, Italienisch und Polnisch.

Lay summary

Übersetzte Dokumente in mehreren Sprachen (sogenannte parallele Korpora) sind wertvoll für verschiedene Aufgaben in der Sprachtechnologie und der linguistischen Forschung. Der Nutzen solcher Korpora für vergleichende Sprachstudien hat in jüngster Zeit durch die Möglichkeiten zur automatischen Berechnungen der sprachübergreifenden Entsprechungen für Dokumente, Sätze und einzelne Wörter stark zugenommen. Wenn wir grosse parallele Korpora haben, können wir heute mit dem Computer einfach bestimmen, welches Wort im Englischen mit welchem Wort im Deutschen übersetzt wurde (z.B. ob goal als Tor oder Ziel übersetzt wurde).

 Sprachliche Variation bedeutet oft die Wahl, ob ein Wort oder ein Ausdruck benutzt oder weggelassen wird. Nicht benutzte Wörter in einer einsprachigen Textsammlung zu finden, ist aber unmöglich. Deshalb arbeiten wir mit parallelen Korpora. Der Kontrast zwischen den Sprachen gibt uns wichtige Hinweise auf die zu untersuchenden Textstellen. Zum Beispiel betrachten wir Fälle, wo im Englischen ein Artikel fehlt, in der deutschen Übersetzung aber vorkommt (z.B. She’s at university vs. Sie besucht die Universität).

 Untersuchungen zum Artikelgebrauch im Englischen sind sehr wichtig, wegen der zunehmender Zahl Englisch-Sprecher deren Muttersprache keine Artikel haben oder diese anders einsetzen. Die meisten Sprachen der Welt kennen keine Artikel. Das Ziel unseres Projektes ist eine genaue Beschreibung der Variation beim Artikelgebrauch. Wir nähern uns diesem Ziel mit korpus-getriebenen Methoden, bei denen uns die grosse Datenmenge auf immer neue Forschungsfragen stösst.

 Die Herausforderung für die Computerlinguistik liegt in der präzisen Analyse der grossen Textsammlungen in den verschiedenen Sprachen. Dabei untersuchen wir, wie mehrere Übersetzungen helfen, die Analyse in einer Sprache zu verbessern. Ein weiterer Schwerpunkt sind das Speichern sowie das schnelle und genaue Abfragen der grossen Datenmengen.