Lead


Lay summary
Das Projekt SCHWEIZER TEXT KORPUS (www.schweizer-textkorpus.ch) ist Teil eines internationalen Forschungsvorhabens, welches das Ziel verfolgt, die deutsche Standardsprache des 20. Jahrhunderts ausgewogen zu erfassen und online zugänglich zu machen, indem deutschsprachige Texte aller Art (überwiegend gedruckt, z.T. Typoskripte) digitalisiert werden (Zeitungsartikel, Werbung, Formulare, Anleitungen, Ratgeber, populäre Fachliteratur, Jugend- und Trivialliteratur, Belletristik, Materialien aus Archiven etc.). Das so entstehende digitale Textkorpus soll einerseits zu einem integralen Bestandteil der seit längerem in Deutschland und Österreich tätigen Partnerprojekte werden (www.dwds.de, www.aac.at), andererseits als Grundlage für spezifische schweizerische sprachwissenschaftliche Bedürfnisse im Allgemeinen und für lexikografische Fragestellungen im Besonderen dienen. Darüber hinaus soll Fachleuten und der Öffentlichkeit ein Querschnitt durch die deutsche Standardsprache in der Schweiz im 20. Jh. geboten werden, der auch im Kontext allgemeiner kulturwissenschaftlicher Fragestellungen von Interesse sein wird.Die erarbeiteten digitalen Textbestände sollen im Web mit umfangreichen Volltext-Suchmöglichkeiten (inklusive der Suche nach textstrukturellen Merkmalen, Lemmata, Morphologie und Wortarten (POS) und differenzierten Ausgabemöglichkeiten (Konkordanzen (KWIC), Darstellung von Originaldokumenten (als PDF-Dateien)) dem interessierten Publikum zur Nutzung angeboten werden. Mittelfristig (2008) werden 20 Mio. Textwörter angestrebt. Langfristig ist eine Vervielfachung dieses Textvolumens wünschenswert.Innovativ am Projekt ist sind Fokussierung auf die Deutschschweizer Sprachsituation, die konsequente historische Schichtung und thematische Fächerung des Korpus durch ein ganzes Jahrhundert hindurch, der Einbezug von Archivmaterialien, grauer Literatur und relativ hohe Gewichtung von bisher kaum in Korpora integrierten Textsorten und schliesslich die geplante flexible Darstellungsweise inklusive der Möglichkeit, Seiten von Originaldokumenten als Bilder auszugeben.Methodisch lehnt sich das Projekt an gängige Vorgehensweisen und Techniken in der Korpuslinguistik an. Technisch es setzt auf etablierte Standards für die Textauszeichnung (TEI), anerkannte Formate (XML, PDF) und quelloffene Software für die Umsetzung (XAIRA, PHP u.A.), um eine hohe Portabilität und Kontinuität zu gewährleisten.