Abstract
We propose a method for scientific terms extraction from the texts in Russian based on weakly supervised learning. This approach doesn't require a large amount of hand-labeled data. To implement this method we collected a list of terms in a semi-automatic way and then annotated texts of scientific articles with these terms. These texts we used to train a model. Then we used predictions of this model on another part of the text collection to extend the train set. The second model was trained on both text collections: annotated with a dictionary and by a second model. Obtained results showed that giving additional data, annotated even in an automatic way, improves the quality of scientific terms extraction.
Highlights
Method for Automatic Term Extraction from Scientific Articles Based on Weak Supervision
In: Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialog”, 2020, p
Summary
Ввиду отсутствия достаточного количества размеченных данных для задачи извлечения терминов для русского языка мы приняли решение использовать подход псевдоразметки (pseudo-labelling). Чтобы обучить модель на небольшом количестве размеченных данных, а затем разметить полученной моделью некоторое количество новых текстов, добавить их к обучающему множеству и обучить вторую модель. Алгоритм получения модели для извлечения терминов состоит из следующих шагов: 1) получить размеченный корпус для первой итерации обучения модели с помощью словарного подхода; 2) обучить модель на полученном корпусе из п. 1; 3) разметить новые тексты и тексты из п. 1 моделью, полученной в результате выполнения п. 2, и словарным подходом; 4) обучить модель на полученном корпусе текстов из п. 1. Рассмотрим каждый из шагов более детально
Talk to us
Join us for a 30 min session where you can share your feedback and ask us any queries you have