Projekt

Zurück zur Übersicht

SPARCLING: Large-scale Annotation and Alignment of Parallel Corpora for the Investigation of Linguistic Variation

Titel Englisch SPARKLING: Large-scale Annotation and Alignment of Parallel Corpora for the Investigation of Linguistic Variation
Gesuchsteller/in Hundt Marianne
Nummer 165819
Förderungsinstrument Projektförderung (Abt. I-III)
Forschungseinrichtung Englisches Seminar Universität Zürich
Hochschule Universität Zürich - ZH
Hauptdisziplin Schwerpunkt Germanistik und Anglistik
Beginn/Ende 01.09.2016 - 30.09.2017
Bewilligter Betrag 139'242.00
Alle Daten anzeigen

Alle Disziplinen (3)

Disziplin
Schwerpunkt Germanistik und Anglistik
Weitere Sprachen
Informatik

Keywords (5)

Parallel Concordancing; Corpus Linguistics; Articles; Linguistic Variation; Parallel Corpora

Lay Summary (Deutsch)

Lead
Europarl ist eine große Textsammlung mit den Äusserungen aus dem EU-Parlament und deren Übersetzungen in die EU-Sprachen. Für jede Sprache analysieren wir die Sätze in diesen Texten automatisch bezüglich Wortklassen und grammatischen Funktionen, und wir berechnen die sprachübergreifenden Satzentsprechungen. Das Ergebnis ist eine wertvolle Ressource für die automatische Sprachverarbeitung und für linguistische Forschungen. Die Computerlinguisten im Projekt beschäftigen sich mit der Verarbeitung und Speicherung von mehreren 100 Millionen Wörtern sowie dem effizienten Zugriff auf die Wörter und die linguistischen Zusatzinformationen. Die Linguisten untersuchen sprachliche Muster in diesem Datenmeer. Insbesondere interessieren sie sich für Unterschiede im Artikelgebrauch zwischen Englisch, Deutsch, Italienisch und Polnisch.
Lay summary

Übersetzte Dokumente in mehreren Sprachen (sogenannte parallele Korpora) sind wertvoll für verschiedene Aufgaben in der Sprachtechnologie und der linguistischen Forschung. Der Nutzen solcher Korpora für vergleichende Sprachstudien hat in jüngster Zeit durch die Möglichkeiten zur automatischen Berechnungen der sprachübergreifenden Entsprechungen für Dokumente, Sätze und einzelne Wörter stark zugenommen. Wenn wir grosse parallele Korpora haben, können wir heute mit dem Computer einfach bestimmen, welches Wort im Englischen mit welchem Wort im Deutschen übersetzt wurde (z.B. ob goal als Tor oder Ziel übersetzt wurde).

 Sprachliche Variation bedeutet oft die Wahl, ob ein Wort oder ein Ausdruck benutzt oder weggelassen wird. Nicht benutzte Wörter in einer einsprachigen Textsammlung zu finden, ist aber unmöglich. Deshalb arbeiten wir mit parallelen Korpora. Der Kontrast zwischen den Sprachen gibt uns wichtige Hinweise auf die zu untersuchenden Textstellen. Zum Beispiel betrachten wir Fälle, wo im Englischen ein Artikel fehlt, in der deutschen Übersetzung aber vorkommt (z.B. She’s at university vs. Sie besucht die Universität).

 Untersuchungen zum Artikelgebrauch im Englischen sind sehr wichtig, wegen der zunehmender Zahl Englisch-Sprecher deren Muttersprache keine Artikel haben oder diese anders einsetzen. Die meisten Sprachen der Welt kennen keine Artikel. Das Ziel unseres Projektes ist eine genaue Beschreibung der Variation beim Artikelgebrauch. Wir nähern uns diesem Ziel mit korpus-getriebenen Methoden, bei denen uns die grosse Datenmenge auf immer neue Forschungsfragen stösst.

 Die Herausforderung für die Computerlinguistik liegt in der präzisen Analyse der grossen Textsammlungen in den verschiedenen Sprachen. Dabei untersuchen wir, wie mehrere Übersetzungen helfen, die Analyse in einer Sprache zu verbessern. Ein weiterer Schwerpunkt sind das Speichern sowie das schnelle und genaue Abfragen der grossen Datenmengen.

 

Direktlink auf Lay Summary Letzte Aktualisierung: 29.07.2016

Lay Summary (Englisch)

Lead
Europarl is a large text collection of the transcriptions from the EU Parliament and their translations. We automatically analyze these texts, add information on speaker nationality, word class and grammatical function (for individual languages), and we align the sentences and words across languages. The result is a valuable resource for automatic language processing and linguistic research. The computational linguists in the project process and store millions of words in different languages, and make them accessible for complex queries. The linguists use this enriched source to study variation in linguistic patterns. In particular, we are interested in the differences in article usage between English and other languages (e.g. German, Italian, Polish).
Lay summary

Translated documents in multiple languages are valuable for various tasks in natural language processing and linguistic research. Their usefulness for contrastive language studies has increased tremendously with the possibility to automatically align the texts on different levels, down to single words. This means that we can automatically compute which word in English has been translated with which word in German (e.g. goal being translated with Tor or Ziel).

Linguistic variation at times involves the choice between the use of an element and its omission. Missing elements are impossible to retrieve, however. We use parallel corpora to target constructions with optional elements in one of the languages. As a case in point we will investigate variable article use in these languages, and, in particular, zero articles in English (for instance She’s at university vs. Sie besucht die Universität).

Studying articles in English is of interest and importance because of the growing influence of non-native English speakers whose first languages do not have articles or use them differently. The aim of the project is a detailed description of variable article use. This will prove useful for language teaching and machine translation. We will approach this goal by corpus-driven methods where the processing of large amounts of text leads to new research hypotheses.

The challenge for computational linguistics lies in high-quality alignment and annotation of large corpora. We exploit translations in multiple languages to improve the annotation of the texts in the various languages and the cross-language alignments. We also work on the construction of efficient and powerful corpus query tools. Many such tools for monolingual corpora exist, but the development of query and exploration tools for large multi-parallel corpora is highly innovative.

Direktlink auf Lay Summary Letzte Aktualisierung: 29.07.2016

Verantw. Gesuchsteller/in und weitere Gesuchstellende

Mitarbeitende

Publikationen

Publikation
Multi-word Adverbs – How well are they handled in Parsing and Machine Translation?
Volk Martin, Graën Johannes (2017), Multi-word Adverbs – How well are they handled in Parsing and Machine Translation?, in The 3rd Workshop on Multi-word Units in Machine Translation and Translation Technology, LondonEurophras, London.
Exploring Properties of Intralingual and Interlingual Association Measures Visually
Graën Johannes, Bless Christof (2017), Exploring Properties of Intralingual and Interlingual Association Measures Visually, in Proceedings of the 21st Nordic Conference on Computational Linguistics, NoDaLiDa, GothenburgUniversity of Gothenburg, Gothenburg.
Multilingwis2 – Explore Your Parallel Corpus
Graën Johannes, Sandoz Dominique, Volk Martin (2017), Multilingwis2 – Explore Your Parallel Corpus, in Proceedings of the 21st Nordic Conference on Computational Linguistics, NoDaLiDa, GothenburgUniversity of Gothenburg, Gothenburg.
Crossing the Border Twice: Reimporting Prepositions to Alleviate L1-Specific Transfer Errors
Graën Johannes, Schneider Gerold (2017), Crossing the Border Twice: Reimporting Prepositions to Alleviate L1-Specific Transfer Errors, in 6th Workshop on NLP for Computer Assisted Language Learning, GothenburgUniversity of Gothenburg, Gothenburg.

Zusammenarbeit

Gruppe / Person Land
Formen der Zusammenarbeit
Spela Vintar, University of Ljubljana Slowenien (Europa)
- vertiefter/weiterführender Austausch von Ansätzen, Methoden oder Resultaten
Robert Östling, University of Helsinki Finnland (Europa)
- vertiefter/weiterführender Austausch von Ansätzen, Methoden oder Resultaten
- Austausch von Mitarbeitern
Lea Meriläinen Finnland (Europa)
- vertiefter/weiterführender Austausch von Ansätzen, Methoden oder Resultaten
- Publikation
- Forschungsinfrastrukturen
- Austausch von Mitarbeitern

Wissenschaftliche Veranstaltungen

Aktiver Beitrag

Titel Art des Beitrags Titel des Artikels oder Beitrages Datum Ort Beteiligte Personen
ICAME 38 Vortrag im Rahmen einer Tagung The validity of large data-driven and constructional approaches for the investigation of variable article use in English 24.05.2017 Prague, Tschechische Republik Clematide Simon; Callegaro Elena;
21st Nordic Conference on Computational Linguistics Vortrag im Rahmen einer Tagung Crossing the border twice: Reimporting prepositions to alleviate L1-specific transfer errors 22.05.2017 Gothenburg, Schweden Graën Johannes;
Parallel Corpora: Creation and Application Einzelvortrag Innovations in Parallel Corpus Alignment and Retrieval 01.12.2016 Santiago de Compostela, Spanien Volk Martin;
49th Annual Meeting of the Societas Linguistica Europaea Vortrag im Rahmen einer Tagung (The) fact is.../(Die) Tatsache ist ... A comparative, corpus-based study of variable article use in English and German focalisers 01.09.2016 Naples, Italien Hundt Marianne;


Veranstaltungen zum Wissenstransfer

Aktiver Beitrag

Titel Art des Beitrags Titel des Artikels oder Beitrages Datum Ort Beteiligte Personen
TransTech - Summer School in Translation Technologies Vortrag 06.09.2017 Ljubljana, Slowenien


Anwendungsorientierte Outputs

Verbundene Projekte

Nummer Titel Start Förderungsinstrument
146781 Large-scale Annotation and Alignment of Parallel Corpora for the Investigation of Linguistic Variation 01.09.2013 Projekte

Abstract

Translated documents in multiple languages (here: parallel corpora) are valuable resources for various tasks in natural language processing and linguistic research. Parallel corpora are useful for tasks as diverse as word sense disambiguation, machine translation and contrastive corpus linguistics. The usefulness of these resources for contrastive linguistics, in particular, has increased tremendously with the possibility to automatically align the texts on the word and phrase level.We work on the automatic annotation and alignment of large parallel corpora from Europarl (the transcriptions of the debates in the European Parliament), with a focus on English and German, but moving beyond these to include French, Finnish, Italian, Polish, and Spanish. Linguistic annotations include Part-of-Speech tags, lemmas and syntactic dependencies. The early languages of the EU (DE, EN, ES, FR, IT) each have around 50 million words in the corpus, Finnish and Polish somewhat less. In sum, this amounts to several 100 million entries in the database. To this, we have to add the cross-lingual alignment links which number in the same order of magnitude.This amount of data poses challenges for storage and efficient retrieval. We work on a powerful query language that will allow a linguist to access and view the linguistic data in a user-friendly fashion. However, the massive parallelism of the texts also offers interesting options for improving the annotation and alignments. It is thus one of the main aims of our project to investigate the advantages of multi-parallel corpora for improving the quality of word alignments.On the linguistic side we will use a data-driven approach to modelling variation in English article use. Previously, it has been difficult to retrieve noun phrases without an article (so-called `bare NPs') from electronic corpora. Since German makes use of articles to a greater extent than English, retrieving NPs with an article in German but no article or other determiner in the aligned English NPs allows us to systematically target bare NPs in English. A similar approach is possible for the language pairs Italian-English and Spanish-English, since the Romance languages, again, make greater use of articles than English. For languages without articles - such as Polish - using English as a starting point and retrieving English NPs with articles will allow modelling the strategies that these languages employ to mark syntactic categories such as `definiteness' and `indefiniteness'. Finally, since our parallel corpus contains both original texts and translations, we will make use of the materials to study the impact of typological differences (i.e. article vs. no-article language) in language contact. The focus for this will be on the language pair English-Finnish.This is a proposal for a one-year extension of our SNF project ``Large-Scale Annotation and Alignment of PARallel Corpora for the Investigation of LINGuistic Variation" which started in the fall 2013 and will end in 2016. The PhD students in this project have made remarkable progress. Additional supervision and support from Computational Linguist Simon Clematide played an important role in this. We now ask for funding for a 4th year so that we can ensure the sustainability of the corpus query system and allow the PhD students to conclude their research and finish their theses.
-