Publication

Back to overview

Korpusgeleitete Extraktion von Mehrwortsequenzen aus (diachronen) Korpora

Type of publication Peer-reviewed
Publikationsform Contribution to book (peer-reviewed)
Author Bürki Andreas,
Project Typisierte Sprache - in Geschichte, Dikurs und Ontogenese
Show all

Contribution to book (peer-reviewed)

Book Aspekte der historischen Phraseologie und Phraseographie
Editor , Filatkina Natalia
Publisher Universitätsverlag Winter, Heidelberg
Page(s) 263 - 292
ISBN 978-3-8253-6087-0
Title of proceedings Aspekte der historischen Phraseologie und Phraseographie

Abstract

With the increasing availability of diachronic corpora, the automatic extraction of phraseological phenomena is becoming an important concern of diachronic phraseological research. To date, there have been few suggestions for corpus-driven extraction procedures specifically tailored to linguistic research on German corpora and the very prospect of a useful corpus-driven extraction is challenged by a number of remaining problems. In this paper we sought to assess the feasibility of an entirely corpus-driven approach to multiword sequence extraction and the influence of factors such as the part-lemmatisation of source data, various filters and the incorporation of sequence-internal variable slots. Using a subcorpus of the Swiss Text Corpus as test data, we first developed an operationalization of multiword sequences and then devised a procedure which is able to extract them with a precision of upward of 70% while also providing adequate recall and transparency of results. Best results where obtained with a frequency-based filter combined with a lexico-structural filter, part-lemmatisation and the incorporation of optional variable slots. Kurzfassung Die sich schnell verbessernde Datenlage betreffend diachroner Korpora macht die automatische Extraktion von Phraseologismen aus Sprachdaten zu einem wichtigen Thema der diachronen Phraseologieforschung. Bisher sind nur wenige Verfahren zur korpusgeleiteten Extraktion von Mehrwortsequenzen vorgeschlagen worden, die spezifisch auf linguistische Forschung an deutschen Sprachdaten zugeschnitten sind. Im vorliegenden Beitrag werden die Brauchbarkeit von Resultaten einer streng korpusgeleiteten Extraktion an deutschen Daten ergründet und die Folgen verschiedener Extraktionseinstellungen getestet. Die hierbei entwickelte Methode ermöglicht die Extraktion von Mehrwortsequenzen mit einer #Präzision# von über 70% und einer adäquaten #Ausbeute#. Die besten Resultate wurden durch Anwendung eines Frequenzfilters zusammen mit einem lexisch-strukturellen Filter, Teil-Lemmatisierung und Berücksichtigung von optionalen variablen Stellen erreicht.
-