Abstract
Is the computer capable of recognizing different sentence types in a linguistic corpus such as COSMAS II (Mannheim), which has not been previously treated by a tagger or a parser? The answer is in fact no. However, in the present article it is shown that under certain circumstances an automatic distinction is nevertheless possible. Making use of a procedure that we have called Anfragezuspitzung (literally: making a query pointed; encirclement of a grammatical phenomenon by a combination of several specific queries), and taking as a starting point philological prior knowledge that has been gathered "by hand", it proves to be perfectly possible to arrive at a satisfactory result. With the example of sentence types in German, in particular the distinction between interrogative and exclamatory sentences, we demonstrate in this article that such a distinction can be carried out automatically with a high degree of accuracy, e.g. the distinction between War das eine gute Idee? (Was this a good idea?) and War das eine gute Idee! (What a good idea this was!).
Highlights
Is the computer capable of recognizing different sentence types in a linguistic corpus such as COSMAS II (Mannheim), which has not been previously treated by a tagger or a parser? The answer is no
Man kann damit in einem vordefinierten Korpus beispielsweise nicht nach allen Ketten wie in (1) suchen: (1) (a) {Det+Adj+Nomen}
Das Globalergebnis einer solchen kombinierten Suchanfrage – demonstriert am Teilkorpus zta – mit den drei exemplarisch herausgegriffenen Satzanfängen Bin ich, War das und Haben wir ist in Tabelle 6 zusammengefasst
Summary
COSMAS II, mit einem Gesamtumfang von über einer Milliarde öffentlich zugänglichen Textwörtern das grösste – und darüber hinaus kostenlos fernabfragbare – Korpus zur deutschen Gegenwartssprache, ist nun allerdings weder mit einem Tagger (Hinzufügung der Wortklassen) noch mit einem Parser (Markierung der syntaktischen Strukturen) "vorbehandelt". Da im Abfrage- und Analyseprogramm von COSMAS II keinerlei linguistische Markierungen vorgesehen sind, kann man mit diesem Forschungsinstrument natürlich auch keine entsprechenden Suchanfragen stellen, z.B. solche nach Wortklassen (Verb, Adjektiv, Präposition, usw.) oder deren grammatischen Unterkategorien (Konjunktiv II, Dativ, Superlativ, usw.) oder gar nach syntaktischen Funktionen (Subjekt, Präpositionalattribut, Apposition, usw.). A fortiori ist COSMAS II nicht imstande, semantisch abgegrenzte Klassen von syntaktischen Phänomenen aus einem Korpus herauszudestillieren, z.B. im Bereich der Nebensatz-Syntax alle Konditionalsätze. (2) (a) Wenn das Geld dafür nicht reicht, ... (b) Sollte das Geld dafür nicht reichen,
Talk to us
Join us for a 30 min session where you can share your feedback and ask us any queries you have
Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.