Abstract

In German studies computer-oriented methods are taking on an increasing significance and consequently should be considered in detail together with all the problems connected with them. This article deals with the automatic lemmatization of Goethe's novel "The Elective Affinities". Following the results of the computer-system LEMMA2, central problems of lemmatization as far as manual correction is concerned will also be discussed.

Highlights

  • Am Ende der automatischen Textbearbeitung durch LEMMA2 steht in jedem Falle eine lange und intensive Korrektur des automatisch erzeugten Ergebnisses

  • (Hrsg.), Studien zur neuhochdeutschen Lexikographie III, Germanistische Linguistik 1-4/82

Read more

Summary

Die automatische Lemmatisierung mit LEMMA2

Theoretisch ist das Programmsystem LEMMA2 mit Hilfe der mitgelieferten Batch-Dateien vollautomatisch ablauffähig. LEMMA2 produziert aus dem vorbereiteten ASCII-Text eine neue Vertikaldatei, in der für jedes Wort und jedes Satzzeichen eine Dateizeile im Umfang von achtzig Zeichen vorgesehen ist. Das kann bei einem Goethe-Werk schon leicht zu Platzschwierigkeiten auf einer Festplatte führen, wenn man berücksichtigt, daß diese Vertikaldatei vor der eigentlichen Analyse durch LEMMA2 in eine alphabetisch geordnete Datei verwandelt werden muß, so daß während des Sortiervorgangs ein Vielfaches des originalen Dateiumfangs die Platte belastet und anschließend vorübergehend zwei inhaltlich identische und nur formal unterschiedliche Dateien auf der Festplatte Platz beanspruchen. Mit LEMMA2 kann ein vom Produzenten entwickeltes hauseigenes Sortiersystem (IKS-SORT) erworben werden, das recht leistungsfähig ist und erheblich mehr Möglichkeiten bietet als die betriebssystemeigene Sortierroutine. Zum Ablauf des Programmsystems LEMMA2 gehört als letztes Modul ein rudimentäres, aber zu diesem Zweck effizientes Syntaxanalysesystem, durch das abschließend so manche noch ungelöste Analyseentscheidung automatisch getroffen werden kann. Am Ende der automatischen Textbearbeitung durch LEMMA2 steht in jedem Falle eine lange und intensive Korrektur des automatisch erzeugten Ergebnisses

Lexikographische Probleme
Literatur
Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call