Lead
Untersuchung der räumlichen Verteilung morphologischer Merkmale mit stark multilingualer quantitativer Textanalyse

Lay summary

Die statistische Modellierung von Worthäufigkeitsverteilungen in Korpora über Sprachen hinweg ist ein systematisches und wiederholbares Verfahren zur Ableitung der Art und der sprachübergreifenden Variation der zugrundeliegenden linguistischen Strukturen. Korpus-Masse, wie z.B. die Shannon-Entropie, können bei der Untersuchung linguistischer Diversität als allgemeine Indikatoren für die Grösse des morphologischen Inventars einer Sprache verwendet werden. Das Grundprinzip dieser Methode ist folgendes: mehr morphologische Kategorien (z.B. Geschlechtskennzeichnung, Fall, Zeitform, Aspekt) → mehr potentielle Worttypen → geringere Wahrscheinlichkeit individueller Worttypen → höhere Shannon-Entropie. Erste Erfolge im korpusbasierten Sprachvergleich zeigen die Relevanz von Worthäufigkeitsverteilungen für die Untersuchung sprachlicher Diversität. Es konnte beispielsweise aufgezeigt werden, dass zwischen solchen Massen und Sprachkontakt ein Zusammenhang besteht. Allerdings gibt es zwei bedeutende Hindernisse, die eine vollständige Integration der Erkenntnisse aus der quantitativen Textanalyse in die linguistische Beschreibung von Sprachvariation und –veränderung beeinträchtigen. Erstens können die bisher verwendeten Korpus-Masse die morphologische Vielfalt nur auf einer aggregierten Ebene beschreiben, ohne zwischen Wortschatzdiversität, Flexion und Derivation zu unterscheiden. Solche Vergleiche lassen sich nur schwer direkt mit der traditionellen Analyse in Verbindung bringen. Zweitens sind korpusbasierte Befunde abhängig von der jeweiligen Auswahl an Textbeispielen aus den Korpora, was generalisierende Annahmen in Frage stellt. Das hier vorgeschlagene Projekt hat eine fundierte Textanalyse für den textbasierten Sprachvergleich zum Ziel. Dafür werden wir Methoden und Werkzeuge anwenden (Lemmatisierung, Segmentierung und morphologischen Analyse), welche sich im Bereich der anwendungsorientierten natürlichen Sprachverarbeitung rasant entwickeln.