Abstract

The paper is devoted to the analysis of the body of terms and terminological sources for further automation of constructing the thesaurus of a subject area, which is regarded as poetics in our work. Preliminary systematization of terminology with a linguistic and statistical approach forms the body of semantically related concepts to automate extraction of semantic relationships between terms that define the structure of the thesaurus of the specified field.

Highlights

  • В последнее время возрос интерес к такому виду представления знаний, как тезаурус

  • Однако после размещения в сети Интернет прототипа тезауруса [6] с использованием Wiki-технологий стало ясно, что на этом этапе такой краудсорсинговый подход к созданию тезауруса не эффективен в связи с недостатком мотивации у пользователей самостоятельно развивать лингвистические ресурсы

  • Скрипты написаны на языке Python, который подходит для обработки русского языка за счет большого выбора библиотек

Read more

Summary

Формальная постановка задачи

CN } множество терминов, D = {d1, d2, . DN } множество определений, R пары семантически связанных терминов. Тогда задачей алгоритма служит задача распознавания множества семантических отношений, представленных в виде R = {(ci, cj), (ci+1, cj+1)} из всевозможных пар терминов. Необходимо построить функцию F : R ⊆ C × C → {0, 1} и выбрать пары терминов, для которых F = 1

Источники терминологических данных
Выбор инструментария для анализа данных
Задачи унификации данных источников
Соотношение терминов и определений в источниках
Анализ терминов
Методика поиска термина и определения
Распознавание семантических отношений
Метрика Количество общих слов в определении
Описание алгоритма
Сравнение метрик
10. Заключение
Full Text
Paper version not known

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.