Korpusbasierte Wörterbucharbeit mit den Daten des Projekts Deutscher Wortschatz

Uwe Quasthoff

doi:10.13092/lo.39.484

Abstract

The corpus project Deutscher Wortschatz (German Vocabulary) at Leipzig University is collecting and processing textual data for 15 years. It now consists of approx. 2 billion running words in 160 million sentences. The dictionary is online available at www.wortschatz.uni-leipzig.de and, moreover, contains word co-occurrence data. The pre-processing of the data used mainly language independent methods and were used for corpora in other languages, too. The paper describes the production process for three dictionaries for which these corpus data were used: a thesaurus, a dictionary of neologisms, and a collocation dictionary. In all cases, the raw data for the dictionary entries were produced automatically, and the final entries were written only using these pre-selections. In the case of the thesaurus, the preprocessing consisted in a corpus based detection of semantically similar words. For the neologism dictionary the yearly frequency information were used and for the collocation dictionary, word co-occurrences and part of speech information were combined.

Highlights

The corpus project Deutscher Wortschatz (German Vocabulary) at Leipzig University is collecting and processing textual data for 15 years
Auf der Gegenseite werden neue Einsichten in die zugrundeliegenden Korpusdaten sowie in die zur Verfügung stehenden Daten benötigt, damit die automatisch erzeugten Rohdaten möglichst hohe Qualität haben
Proceedings of the Information Society Language Technologies Conference (IS-LTC) 2006

Summary

Unterstützung bei der Wörterbucherstellung

Die folgenden Beispiele zeigen jedoch, wie solche maschinellen Verfahren genutzt werden können, um Vorschläge für in Wörterbuchartikeln zu verwendende Daten zu erzeugen. Die Verfahren werden möglicherweise viel zu viele Rohdaten vorschlagen, im Gegenzug werden wir aber davon ausgehen können, dass alle relevanten Vorschläge auch vorgelegt werden. Damit verändert sich die Arbeit des menschlichen Wörterbuchbearbeiters hin zu einer mehr routinemäßigen Tätigkeit, bei der vorgegebene Vorschläge angenommen oder abgelehnt und möglicherweise kleine Verschiebungen in der Einordnung vorgenommen werden. Außerdem reicht möglicherweise eine geringere Qualifikation der Bearbeiter, da sich deren jetzt eher routinemäßige Tätigkeit genauer beschreiben, organisieren und kontrollieren lässt. Auf der Gegenseite werden neue Einsichten in die zugrundeliegenden Korpusdaten sowie in die zur Verfügung stehenden Daten benötigt, damit die automatisch erzeugten Rohdaten möglichst hohe Qualität haben.

Sachgruppenwörterbuch

Neologismenwörterbuch

Kollokationswörterbuch

Frequenzwörterbuch

Literatur

Full Text

Paper version not known

Open DOI Link

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

R Discovery Prime

R Discovery Prime

Korpusbasierte Wörterbucharbeit mit den Daten des Projekts Deutscher Wortschatz

Abstract

Highlights

Summary

Talk to us

Similar Papers

More From: Linguistik Online

Lead the way for us

Journal: Linguistik Online	Publication Date: Jul 1, 2009
License type: CC BY 3.0

Similar Papers

Incorporating Frequency Information in a Collocation Dictionary: Establishing a Methodology
Orsolya Vincze ... Margarita Alonso Ramos
Procedia - Social and Behavioral Sciences | VOL. 95
Orsolya Vincze, et. al.Orsolya Vincze ... Margarita Alonso Ramos
01 Oct 2013
Procedia - Social and Behavioral Sciences | VOL. 95

Automatic Construction of Collocation Dictionary Based on Text Mining
Hui Zhang ...
Advanced Materials Research | VOL. 532-533
Hui Zhang, et. al.Hui Zhang ...
01 Jun 2012
Advanced Materials Research | VOL. 532-533

Survey of Word Co-occurrence Measures for Collocation Detection
Olga Kolesnikova
Computación y Sistemas | VOL. 20
Olga KolesnikovaOlga Kolesnikova
30 Sep 2016
Computación y Sistemas | VOL. 20

Critical Discourse Analysis of Japanese Mainstream Media Reports on China’s Aid to Africa: Based on Corpus Data
Bangni Chen
International Journal of Social Science and Humanity | VOL. -
Bangni ChenBangni Chen
01 Jan 2024
International Journal of Social Science and Humanity | VOL. -

Editage

Paperpal

R Discovery

Mind the Graph

R Discovery Prime

R Discovery Prime

Korpusbasierte Wörterbucharbeit mit den Daten des Projekts Deutscher Wortschatz

Abstract

Highlights

Summary

Talk to us

Similar Papers

More From: Linguistik Online