Data and Documentation
Open Data Policy
FAQ
EN
DE
FR
Suchbegriff
Advanced search
Publication
Back to overview
Korpusgeleitete Extraktion von Mehrwortsequenzen aus (diachronen) Korpora
Type of publication
Peer-reviewed
Publikationsform
Contribution to book (peer-reviewed)
Author
Bürki Andreas,
Project
Typisierte Sprache - in Geschichte, Dikurs und Ontogenese
Show all
Contribution to book (peer-reviewed)
Book
Aspekte der historischen Phraseologie und Phraseographie
Editor
, Filatkina Natalia
Publisher
Universitätsverlag Winter, Heidelberg
Page(s)
263 - 292
ISBN
978-3-8253-6087-0
Title of proceedings
Aspekte der historischen Phraseologie und Phraseographie
Abstract
With the increasing availability of diachronic corpora, the automatic extraction of phraseological phenomena is becoming an important concern of diachronic phraseological research. To date, there have been few suggestions for corpus-driven extraction procedures specifically tailored to linguistic research on German corpora and the very prospect of a useful corpus-driven extraction is challenged by a number of remaining problems. In this paper we sought to assess the feasibility of an entirely corpus-driven approach to multiword sequence extraction and the influence of factors such as the part-lemmatisation of source data, various filters and the incorporation of sequence-internal variable slots. Using a subcorpus of the Swiss Text Corpus as test data, we first developed an operationalization of multiword sequences and then devised a procedure which is able to extract them with a precision of upward of 70% while also providing adequate recall and transparency of results. Best results where obtained with a frequency-based filter combined with a lexico-structural filter, part-lemmatisation and the incorporation of optional variable slots. Kurzfassung Die sich schnell verbessernde Datenlage betreffend diachroner Korpora macht die automatische Extraktion von Phraseologismen aus Sprachdaten zu einem wichtigen Thema der diachronen Phraseologieforschung. Bisher sind nur wenige Verfahren zur korpusgeleiteten Extraktion von Mehrwortsequenzen vorgeschlagen worden, die spezifisch auf linguistische Forschung an deutschen Sprachdaten zugeschnitten sind. Im vorliegenden Beitrag werden die Brauchbarkeit von Resultaten einer streng korpusgeleiteten Extraktion an deutschen Daten ergründet und die Folgen verschiedener Extraktionseinstellungen getestet. Die hierbei entwickelte Methode ermöglicht die Extraktion von Mehrwortsequenzen mit einer #Präzision# von über 70% und einer adäquaten #Ausbeute#. Die besten Resultate wurden durch Anwendung eines Frequenzfilters zusammen mit einem lexisch-strukturellen Filter, Teil-Lemmatisierung und Berücksichtigung von optionalen variablen Stellen erreicht.
-