Abstract

We propose a method for scientific terms extraction from the texts in Russian based on weakly supervised learning. This approach doesn't require a large amount of hand-labeled data. To implement this method we collected a list of terms in a semi-automatic way and then annotated texts of scientific articles with these terms. These texts we used to train a model. Then we used predictions of this model on another part of the text collection to extend the train set. The second model was trained on both text collections: annotated with a dictionary and by a second model. Obtained results showed that giving additional data, annotated even in an automatic way, improves the quality of scientific terms extraction.

Highlights

  • Method for Automatic Term Extraction from Scientific Articles Based on Weak Supervision

  • In: Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialog”, 2020, p

Read more

Summary

Алгоритм извлечения терминов

Ввиду отсутствия достаточного количества размеченных данных для задачи извлечения терминов для русского языка мы приняли решение использовать подход псевдоразметки (pseudo-labelling). Чтобы обучить модель на небольшом количестве размеченных данных, а затем разметить полученной моделью некоторое количество новых текстов, добавить их к обучающему множеству и обучить вторую модель. Алгоритм получения модели для извлечения терминов состоит из следующих шагов: 1) получить размеченный корпус для первой итерации обучения модели с помощью словарного подхода; 2) обучить модель на полученном корпусе из п. 1; 3) разметить новые тексты и тексты из п. 1 моделью, полученной в результате выполнения п. 2, и словарным подходом; 4) обучить модель на полученном корпусе текстов из п. 1. Рассмотрим каждый из шагов более детально

Получение размеченного корпуса для первой итерации обучения модели
Получение размеченного корпуса для второй итерации обучения модели
Описание модели
Описание эвристик
Анализ результатов
Частичное совпадение
Применение модели к текстам другой предметной области
Метрики на корпусе RuREBus Metrics for RuREBus
Список литературы
Full Text
Paper version not known

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call