Abstract

The corpus project Deutscher Wortschatz (German Vocabulary) at Leipzig University is collecting and processing textual data for 15 years. It now consists of approx. 2 billion running words in 160 million sentences. The dictionary is online available at www.wortschatz.uni-leipzig.de and, moreover, contains word co-occurrence data. The pre-processing of the data used mainly language independent methods and were used for corpora in other languages, too. The paper describes the production process for three dictionaries for which these corpus data were used: a thesaurus, a dictionary of neologisms, and a collocation dictionary. In all cases, the raw data for the dictionary entries were produced automatically, and the final entries were written only using these pre-selections. In the case of the thesaurus, the preprocessing consisted in a corpus based detection of semantically similar words. For the neologism dictionary the yearly frequency information were used and for the collocation dictionary, word co-occurrences and part of speech information were combined.

Highlights

  • The corpus project Deutscher Wortschatz (German Vocabulary) at Leipzig University is collecting and processing textual data for 15 years

  • Auf der Gegenseite werden neue Einsichten in die zugrundeliegenden Korpusdaten sowie in die zur Verfügung stehenden Daten benötigt, damit die automatisch erzeugten Rohdaten möglichst hohe Qualität haben

  • Proceedings of the Information Society Language Technologies Conference (IS-LTC) 2006

Read more

Summary

Unterstützung bei der Wörterbucherstellung

Die folgenden Beispiele zeigen jedoch, wie solche maschinellen Verfahren genutzt werden können, um Vorschläge für in Wörterbuchartikeln zu verwendende Daten zu erzeugen. Die Verfahren werden möglicherweise viel zu viele Rohdaten vorschlagen, im Gegenzug werden wir aber davon ausgehen können, dass alle relevanten Vorschläge auch vorgelegt werden. Damit verändert sich die Arbeit des menschlichen Wörterbuchbearbeiters hin zu einer mehr routinemäßigen Tätigkeit, bei der vorgegebene Vorschläge angenommen oder abgelehnt und möglicherweise kleine Verschiebungen in der Einordnung vorgenommen werden. Außerdem reicht möglicherweise eine geringere Qualifikation der Bearbeiter, da sich deren jetzt eher routinemäßige Tätigkeit genauer beschreiben, organisieren und kontrollieren lässt. Auf der Gegenseite werden neue Einsichten in die zugrundeliegenden Korpusdaten sowie in die zur Verfügung stehenden Daten benötigt, damit die automatisch erzeugten Rohdaten möglichst hohe Qualität haben.

Sachgruppenwörterbuch
Neologismenwörterbuch
Kollokationswörterbuch
Frequenzwörterbuch
Literatur
Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call