Abstract

The article presents structural models of terminological phrases from the subject area “Welding” as the basis for creating automated tools to mark up the corpus of scientific and technical texts. The place of scientific and technical corpora in corpus linguistics and the prospects for their further research are outlined. The relevance of the research stems from the need to create corpora of scientific and technical texts in general and to provide tools for automatic detection of terms in particular. It is substantiated that the main problem in designing such corpora is the automatic markup of terminological phrases. The analysis of the current state of the term system of the subject area “Welding” has been carried out. The results of the analysis of two-, three-, four- and five-component terminological phrases of “Welding” and their structural models are presented and illustrated by examples. The necessity of listing all possible structural models of terminological combinations has been substantiated too. It has been established that the addition of a new component to the basic terminological combination most often occurs with introduction of one more postpositional at-tribute whose function is to add some specific feature to the basic meaning. The novelty of the study is seen in providing a theoretical approach for the formation of a database of structural models of terminological phrases which may be used as a core of a supersource database on the structure of the multicomponent scientific and technical terms. An approach to automatic markup of multicomponent terms is proposed too. It will be also helpful in future corpus research for identification of candidate word combinations as scientific and technical terms.

Highlights

  • Сферы применения корпусов текстов включают автоматизированное извлечение информации, обучение на основе данных, текстовые поиски в крупномасштабных коллекциях текстов с использованием методов обработки естественного языка, автоматическую классификацию текстов, преподавание языков для специальных целей, проведение лингвистических исследований [Нагель, 2008

  • as the basis for creating automated tools to mark up the corpus

  • The relevance of the research stems from the need to create corpora

Read more

Summary

Формальная структура термина как фактор эффективности разметки корпуса

Подавляющее большинство терминов имеет формальную структуру лексических единиц того естественного языка, в сфере которого они функционируют и образуются [Лейчик, 1994. Наиболее сложное явление в процессе автоматической разметки терминов в корпусе научно-технических текстов представляют многокомпонентные термины – терминологические словосочетания, образованные лексическим и синтаксическим способами, то есть словосочетания, образованные по определенным моделям. Способ образование терминов в виде цепочки слов часто используется на практике [Лейчик, 1994. В основе анализа терминологических словосочетаний лежит вычленение исходного терминологического словосочетания и определение последовательности присоединения к нему остальных элементов. Как правило, является двухкомпонентное субстантивное терминологическое словосочетание, которое в рамках трех-, четырехкомпонентного терминологического словосочетания характеризуется более тесными структурно-семантическими отношениями [Циткина, 1988. При создании системы автоматической разметки корпуса научно-технических текстов необходимо установить все возможные структурные модели русских многокомпонентных терминов на примере предметной области «Сварка»

Структурные модели русскоязычных терминологических единиц
Список литературы
Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call