Abstract

The SWISS TEXT CORPUS (CHTK) has made it its goal to extensively document the German language of the 20th century in Switzerland. In this way, and in its parallel function as a sub-corpus of the Corpus C4, that will consist of 20 million text words (tokens) each from Germany, Austria, Italy/South Tirol and, as already said, Switzerland, it represents a classical reference corpus both for the standard German language in Switzerland as well as in the entire German-speaking area of Western Europe. A reference corpus should meet the requirement of comprehensively depicting the central repertoire of a language, i.e. the generally used vocabulary of this language, which is why questions of corpus structure and general planning (corpus design) play a decisive role (cf. Lemnitzer/Zinsmeister (2006: 106), where the type of the reference corpus is contrasted with the special corpus). Four and a half years after the start of the project, the SWISS TEXT CORPUS was made available to the general public in April 2009, as a research instrument. The following article outlines in brief the history of this research project and deals with fundamental and specific decisions that had to be made in the design of such a reference corpus, and with how the CHTK is compiled. Together with a concluding overview of some retrieval and analysis options offered by the CHTK, this article also provides an overview of the potential of this new research instrument and supplies the background knowledge required to work with the CHTK. For reasons of space, the methods of working, the corpus-driven approaches, cannot be thematised here (cf. Bubenhofer 2008, 2006).

Highlights

  • The SWISS TEXT CORPUS (CHTK) has made it its goal to extensively document the German language of the 20th century in Switzerland

  • Even if we only consider the most frequent part of the vocabulary we find ourselves at a loss" (Teubert/Čermáková 2007: 64)

  • In: Teubert, Wolfgang (ed.): Neologie und Korpus

Read more

Summary

Geschichte und Forschungsrahmen

Die Initiative für ein neues Korpus deutschsprachiger Texte ging von Berlin aus. Unter dem Titel Digitales Wörterbuch der deutschen Sprache des 20. Jahrhunderts (DWDS)[1] wurde im Jahr 2000 eine Projektgruppe gebildet, die das Ziel hatte, ein korpusbasiertes digitales Wörterbuch der deutschen Sprache des 20. Ausserdem übernahm die Projektgruppe des CHTK gewisse Vorarbeiten und Softwarekomponenten der weiter fortgeschrittenen Partnerprojekte in Berlin und Wien.[5] In einer gemeinsamen Erklärung der drei Projekte wurden die Grösse des angestrebten Korpus auf 20 Mio. Textwörter pro beteiligten Partner und Richtlinien für den Korpusaufbau – ausgewogene zeitliche Streuung über das gesamte 20. Wurde auf den Abschluss des Projekts hin nicht mehr das Ziel verfolgt, ein einziges gemeinsames Korpus aufzubauen, sondern es sollte jede Institution ihr eigenes Korpus nach gemeinsam erarbeiteten Standards entwickeln, das über ein verteiltes System in das Korpus C4 einfliessen sollte.[8] Trotz unterschiedlicher Rahmenbedingungen und zeitlicher Inkongruenz schien es bis zum Release im Februar 2009 zu gelingen, vier Teilkorpora zu einem gesamtdeutschen Korpus zu vereinen.[9]

Repräsentativität und Ausgewogenheit
Korpusdesign und Korpusaufbau des CHTK
Grösse
Zentralrepertoire
Urheberrechte
Werkkategorie
Sachgruppen
31. Technik
Jahrhundertviertel
Geschlecht
Regionale Verteilung
Allgemeines
Ergiebigkeit des CHTK im Vergleich mit Cosmas und DWDS
Historische Beispiele
Spezifität hinsichtlich nationaler Varianten
Komplexere Abfragen und Filter
Ausblick
Literatur
Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call