Projekt

Zurück zur Übersicht

Regional Linguistic Data Initiative

Titel Englisch Regional Linguistic Data Initiative
Gesuchsteller/in Samardzic Tanja
Nummer 160501
Förderungsinstrument SCOPES
Forschungseinrichtung Seminar für Allgemeine Sprachwissenschaft Universität Zürich
Hochschule Universität Zürich - ZH
Hauptdisziplin Weitere Sprachen
Beginn/Ende 01.05.2015 - 30.06.2017
Bewilligter Betrag 178'586.00
Alle Daten anzeigen

Alle Disziplinen (2)

Disziplin
Weitere Sprachen
Informatik

Keywords (5)

automatic langage processing; Croatian, Serbian; language corpora; distance learning; empirical methods

Lay Summary (Deutsch)

Lead
Die durch das SCOPES-Projekt ermöglichte institutionelle Partnerschaft zwischen der Schweiz (Partnerschafts-Koordinator), Serbien (Partner A) und Kroatien (Partner B) zielt auf die Gründung einer regionalen Initiative zur Verbesserung der Ressourcen- und Forschungsmethoden auf dem Gebiet der empirischen Sprachforschung. Es soll dabei die enge Verbundenheit Kroatiens und Serbiens genutzt werden. Im Mittelpunkt der Zusammenarbeit stehen die Bereiche (1) Sprachdaten und damit verbundene Werkzeuge und Ressourcen einerseits, und (2) Forschungsdesign und Methoden in der korpus-basierten Sprachforschung andererseits; statistische Methoden kommen in beiden Bereichen zur Anwendung. Die miteinander verknüpften Massnahmen der geplanten Aktivitäten umfassen zum einen (1) die Erstellung eines Datenaufbewahrungsortes (sog. „data repository“), und zum anderen (2) pädagogische Aktivitäten.
Lay summary

Die vorgeschlagene Partnerschaft ist für verschiedene Bereiche der Sprachforschung relevant. Diese reichen von der theoretischen Linguistik bis zur angewandten Linguistik (Spracherwerb, Übersetzung, Lexikologie), die „Digital Humanities“ im Allgemeinen und die maschinelle Verarbeitung natürlicher Sprache im Besonderen.

Die Zusammenarbeit zwischen den Ländern Schweiz, Serbien und Kroation in diesem Projekt hat bedeutendes Potenzial mit Langzeitauswirkungen: Die zentrale Datenaufbewahrung wird es erlauben, dass die Projektpartner die weitere Entwicklung der Ressourcen aufrechterhalten und aufeinander abstimmen können. Werkzeuge und Anwendungen für Kroatisch und Serbisch werden entwickelt und bereitgestellt, wobei die Ähnlichkeit der beiden Sprachen ausgenutzt wird. Diese Entwicklung war bisher aufgrund der schwierigen politischen Beziehungen zwischen Serbien und Kroation erschwert. Darüber hinaus werden die pädagogischen Aktivitäten eine wichtige Lücke in der Schulung der Forscher schliessen, da sie ihnen nicht nur ermöglichen, neue Methoden und Ressourcen in ihren linguistischen Forschungen zu erproben und anzuwenden, sondern sie auch befähigen, andere Wissenschaftler und ihre Studierenden entsprechend auszubilden. Das Projekt wird dazu beitragen, dass sich im linguistischen Forschungskontext die Handhabung von Sprachdaten in dieser Region in Zukunft effektiver und ökonomischer gestaltet. Ausserdem wird erwartet, dass Möglichkeiten zum Networking zwischen Universitätsangehörigen und Industrie entstehen und dadurch auch gesellschaftliche Effekt in den Partnerländern bewirkt werden können.

Direktlink auf Lay Summary Letzte Aktualisierung: 21.04.2015

Verantw. Gesuchsteller/in und weitere Gesuchstellende

Mitarbeitende

Publikationen

Publikation
Adapting a State-of-the-Art Tagger for South Slavic Languages to Non-Standard Text
Ljubešić Nikola, Erjavec Tomaž, Fišer Darja (2017), Adapting a State-of-the-Art Tagger for South Slavic Languages to Non-Standard Text, in Proceedings of the 6th Workshop on Balto-Slavic Natural Language Processing.
Universal Dependencies for Serbian in Comparison with Croatian and Other Slavic Languages
Samardžić Tanja, Starović Mirjana, Agić Željko, Ljubešić Nikola (2017), Universal Dependencies for Serbian in Comparison with Croatian and Other Slavic Languages, in In Proceedings of the 6th Workshop on Balto-Slavic Natural Language Processing.
A Framework for automatic acquisition of Croatian and Serbian verb aspect from corpora
Samardžić Tanja, Miličević Maja (2016), A Framework for automatic acquisition of Croatian and Serbian verb aspect from corpora, in Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016).
Corpus vs. lexicon supervision in morphosyntactic tagging: the case of Slovene
Ljubešić Nikola, Erjavec Tomaž (2016), Corpus vs. lexicon supervision in morphosyntactic tagging: the case of Slovene, in Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016).
Corpus-based diacritic restoration for South Slavic languages.
Ljubešić Nikola, Erjavec Tomaž, Fišer Darja (2016), Corpus-based diacritic restoration for South Slavic languages., in Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), European Language Resources Association (ELRA), Paris, France.
Easily accessible language technologies for Slovene, Croatian and Serbian
Ljubešić Nikola, Erjavec Tomaž, Fišer Darja, Samardžić Tanja, Miličević Maja, Klubička Filip, Petkovski Filip (2016), Easily accessible language technologies for Slovene, Croatian and Serbian, in Proceedings of the Conference on Language Technologies & Digital Humanities.
New inflectional lexicons and training corpora for improved morphosyntactic annotation of Croatian and Serbian
Ljubešić Nikola, Klubička Filip, Agić Željko, Jazbec Ivo-Pavao (2016), New inflectional lexicons and training corpora for improved morphosyntactic annotation of Croatian and Serbian, in Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), European Language Resources Association (ELRA), Paris, France.
Tviterasi, tviteraši or twitteraši? Producing and analysing a normalised dataset of Croatian and Serbian tweets
Miličević Maja, Ljubešić Nikola (2016), Tviterasi, tviteraši or twitteraši? Producing and analysing a normalised dataset of Croatian and Serbian tweets, in Slovenščina 2.0, 4(2), 156-188.
Using machine learning for language and structure annotation in an 18th century dictionary
Bago Petra, Ljubesic Nikola (2015), Using machine learning for language and structure annotation in an 18th century dictionary, in Electronic lexicography in the 21st century: linking lexical data in the digital age. Proceedings of, Trojina, Institute for Applied Slovene Studies/Lexical Computing Ltd., Ljubljana/Brighton.
Comparing the nonstandard language of Slovene, Croatian and Serbian tweets
Fišer Darja, Erjavec Tomaž, Ljubešić Nikola, Miličević Maja (2015), Comparing the nonstandard language of Slovene, Croatian and Serbian tweets, in Simpozij Obdobja 34. Slovnica in slovar - aktualni jezikovni opis (1. del), Filozofska fakulteta, Ljubljana.
Regional Linguistic Data Initiative
Samardzic Tanja, Ljubesic Nikola, Milicevic Maja (2015), Regional Linguistic Data Initiative, in Proceedings of the 5th Workshop on Balto-Slavic Natural Language Processing,.

Zusammenarbeit

Gruppe / Person Land
Formen der Zusammenarbeit
University of Ljubljana, JANES project Slowenien (Europa)
- vertiefter/weiterführender Austausch von Ansätzen, Methoden oder Resultaten
- Publikation
Jožef Stefan Institute, Ljubljana, CLARIN-SI Slowenien (Europa)
- vertiefter/weiterführender Austausch von Ansätzen, Methoden oder Resultaten
- Publikation
- Forschungsinfrastrukturen
Belgrade Center for Digital Humanities Serbien (Europa)
- vertiefter/weiterführender Austausch von Ansätzen, Methoden oder Resultaten
Department of General Linguistics, Faculty of Philology, University of Belgrade, Maja Milicevic Serbien (Europa)
- vertiefter/weiterführender Austausch von Ansätzen, Methoden oder Resultaten
- Forschungsinfrastrukturen
- Austausch von Mitarbeitern
Abu-MaTran project Irland (Europa)
- vertiefter/weiterführender Austausch von Ansätzen, Methoden oder Resultaten
- Publikation
Department of Information and Communication Sciences, University of Zagreb, Nikola Ljubesic Kroatien (Europa)
- vertiefter/weiterführender Austausch von Ansätzen, Methoden oder Resultaten
- Forschungsinfrastrukturen
- Austausch von Mitarbeitern
University of Copenhagen, LOWLANDS Dänemark (Europa)
- vertiefter/weiterführender Austausch von Ansätzen, Methoden oder Resultaten
- Publikation

Wissenschaftliche Veranstaltungen

Aktiver Beitrag

Titel Art des Beitrags Titel des Artikels oder Beitrages Datum Ort Beteiligte Personen
Bilingualism vs. monolingualism: a new perspective on limitations to L2 acquisition Vortrag im Rahmen einer Tagung Can translation lead to L1 attrition? Anaphora resolution by English>Croatian translators 19.06.2017 Toulouse, Frankreich Milicevic Maja;
Workshop at the Zadar Linguistic Forum Vortrag im Rahmen einer Tagung Using language technologies for South Slavic languages for linguistic researc 08.06.2017 Zadar, Kroatien Ljubešic Nikola;
NoDaLiDa Workshop on Universal Dependencies (UDW2017) Poster Universal Dependencies for Serbian in Comparison with Croatian and Other Slavic Languages 22.05.2017 Gothenburg, Schweden Ljubešic Nikola; Samardzic Tanja;
Spatial Boundaries and Transitions in Language and Interaction Vortrag im Rahmen einer Tagung Establishing borders between states vs. languages: Twitter data to the rescue 24.04.2017 Monte Verità, Schweiz Samardzic Tanja; Milicevic Maja; Ljubešic Nikola;
Workshop for the FRAMNAT project Vortrag im Rahmen einer Tagung Language technologies for South Slavic languages 08.04.2017 Rijeka, Kroatien Ljubešic Nikola;
Die Bibliothek vernetzt. Infrastrukturen für Forschungsdaten in den Geisteswissenschaften Vortrag im Rahmen einer Tagung Infrastrukturen und Services für linguistische Projekte 09.02.2017 Zurich, Schweiz Samardzic Tanja;
Language Technologies & Digital Humanities 2016 Vortrag im Rahmen einer Tagung Analysing spatial distribution of linguistic variables in geoencoded tweets from Croatia, Bosnia, Montenegro and Serbia 29.09.2016 Ljubljana, Slowenien Milicevic Maja; Samardzic Tanja; Ljubešic Nikola;
4th Novi Sad workshop on Psycholinguistic, Neurolinguistic and Clinical Linguistic Research Vortrag im Rahmen einer Tagung ReLDI (Regional Linguistic Data Initiative): Project presentation (SNSF SCOPES Project 160501 16.04.2016 Novi Sad, Serbien Milicevic Maja;
Variation in space and time: clausal complementation in South Slavic Vortrag im Rahmen einer Tagung ReLDI resources for Croatian and Serbian 17.03.2016 Zurich, Schweiz Samardzic Tanja;
Janes Ekspres Vortrag im Rahmen einer Tagung Annotating non-standard elements in Serbian tweets - linguistic guidelines 10.12.2015 Belgrade, Serbien Milicevic Maja;
Janes Ekspres Vortrag im Rahmen einer Tagung Annotating non-standard elements in Croatian tweets - linguistic guidelines 04.12.2015 Zagreb, Kroatien Ljubešic Nikola;
Slovene on the Internet and in New Media Vortrag im Rahmen einer Tagung Beyond example extraction: Quantitative analysis of the JANES corpus 25.11.2015 Ljubljana, Slowenien Milicevic Maja;
5th Workshop on Balto-Slavic Natural Language Processing Vortrag im Rahmen einer Tagung Regional Linguistic Data Initiative (ReLDI) 10.09.2015 Hissar, Bulgarien Samardzic Tanja; Ljubešic Nikola;
eLex conference 2015 (Electronic lexicography in the 21st century: Linking lexical data in the digital age) Vortrag im Rahmen einer Tagung Using machine learning for language and structure annotation in an 18th century dictionary 11.08.2015 Sussex, Grossbritannien und Nordirland Ljubešic Nikola;


Veranstaltungen zum Wissenstransfer

Aktiver Beitrag

Titel Art des Beitrags Titel des Artikels oder Beitrages Datum Ort Beteiligte Personen
angesprochen. Der Linguistik-Podcast, ZüKL Performances, Ausstellungen (z.B. für Bildungsinstitute) 29.10.2016 Zurich, Schweiz
Data Science Monetization Vortrag 13.04.2016 Zagreb, Kroatien


Abstract

An important global trend in the study of human language in the past decades has been a growing reliance on empirical data. This is due to the rapid development and wider accessibility of large collections of machine-readable text and tools needed for its processing, as well as to a rise in standards of experimental research on language, often criticised in the past for lack of solid experimental design. With the advent of larger amounts of data, statistics has also become integral for linguists, and mastering the methodology of language research has turned into an increasingly complex task. At the same time, more attention has started being paid to the issues of replicability and reproducibility of language research and exciting steps have been made towards establishing common standards for sharing data and resources, as evidenced by the rising number of initiatives focused on creating dedicated repositories.Due to the difficulties brought by the transition period following the breakup of former Yugoslavia, Serbia and Croatia lag behind most other European countries in the implementation of these trends. The countries’ isolation during the 1990s, insufficient institutional support and the continuing lack of funds needed for joining some of the wider European initiatives have largely left language researchers to their own devices, leading to a situation in which a number of individuals and groups do conduct internationally visible research, but no impetus is given to the wider linguistic community. The developed resources and experimental instruments are often unavailable to external users, and the training of language specialists remains largely traditional, preventing them from using even those resources and instruments that are available to them. In addition, the split of the once shared Serbo-Croatian into two distinct official languages has led to a separate development of resources, with very little transfer and with many missed joint effort opportunities.With the above in mind, the main objective of the proposed institutional partnership between Switzerland, Croatia and Serbia is to establish a regional initiative that will improve resources and research methodology in the domain of language studies based on empirical data, focusing on Croatian and Serbian and fully exploiting their close relatedness. The two core areas of interest are (1) language corpora and related tools and resources, and (2) experimental design in language research and related instruments; statistical analysis will be covered in both areas. Two (intertwined) strands of planned activity are (1) the creation of a resource repository, and (2) pedagogical activities. The resources will be integrated within a web platform comprising portions dedicated to corpus-based and experimental research, as well as an e-learning environment for web courses and tutorials dedicated to resource use. The pedagogical activities will also include traditional live seminars, serving as both training and networking events.The proposed partnership is relevant for different sub-fields of language study, ranging from theoretical linguistics to the applied areas of language acquisition, translation and lexicology, as well as for information retrieval and digital humanities. It has significant potential for long-term impact, as the resource repository will allow the project partners to sustain and synchronise the development of language resources and instruments for Croatian and Serbian, making future resource management more effective and more economical, while pedagogical activities will fill an important lacuna in the researchers’ training, enabling them not only to use new methods in their research, but also to train others. Lastly, networking opportunities involving both members of academia and industry are expected to bring about a wider societal effect.
-