Abstract

The paper presents the development results of computer methods for analyzing text data and assessing classification inaccuracies at the stages of thematic modeling. This study uses as an example the task to process textual data of a collection of graduate qualification works prepared and defended by students of Altai State University, Faculty of Mathematics and IT in recent years.
 The main results obtained in the paper are listed as follows. Relevant application areas and directions for computer methods and thematic modeling in the educational process are identified. Justification of the general algorithm for solving the problem of the thematic analysis of collections of educational materials is carried out. Information technologies for thematic modeling are developed, and estimation of analysis errors on a set of test documents is obtained. It is shown that computer-based methods of thematic modeling and information technology to support them can be used both in the educational process and in the development of educational and methodological documents.

Highlights

  • The main results obtained in the paper are listed as follows

  • Рассматриваем коллекцию текстовых документов, которые следует классифицировать по заданным темам

  • О подходе к классификации авторефератов диссертаций по темам // Вестник НГУ

Read more

Summary

Постановка задачи и схема алгоритма анализа коллекций текстовых документов

Рассматриваем коллекцию текстовых документов, которые следует классифицировать по заданным темам. Тогда поиск ключевых слов и оценку их суммарной значимости можно проводить по исходному тексту исследуемых документов. Далее по этапам классификации производят оценку значения классифицирующей функции принадлежности или непринадлежности каждого из исследуемых документов коллекции к выделенным темам. Возможны следующие результаты классификации [10]: 1) «Прав»: документ («Свой») правильно определился в свою рубрику. 4) «Св_чуж»: «Свой» документ ошибочно определился как «Чужой». Для заданных базовых тем с помощью экспертов составляем список ключевых слов в нормальной форме. Подсчитываем значения классифицирующей функции принадлежности или непринадлежности каждого из исследуемых документов коллекции к выделенным темам и выделяем искомые документы коллекции, которые относятся к заданным темам. Анализ текстовых документов можно проводить последовательно или в процессе классификации уточнять решения предыдущих этапов. Это касается как составов коллекции документов, ключевых слов, так и пороговых значений классифицирующей функции

Информационная технология анализа коллекции текстовых документов
Тестирование информационных технологий тематической классификации
Машинное обучение и анализ данных
Результаты тематической классификации ВКР
Findings
Библиографический список
Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call