Abstract

The article deals with a new approach to text classification considering the existence of different types of classification features (binary, nominal, ordinal and interval). The specialty of the approach is a phased classification process, which makes it possible to not cause different types of classification features to a single range. The author describes a computational experiment using texts included in Russian National Corpus and suggests the set of classification features for Russian text classification based on the age of theirs supposed readers. Text documents included in the sample are divided into two categories – for adults and for children, — according to the views of experts.

Highlights

  • В статье приведены значения точности классификации текстов, полученные в результате проведения серии экспериментов по автоматическому определению возрастных категорий адресатов текста

  • При этом точность классификации составила 73,33% на выwww.proceedings.spiiras.nw.ru борке детских текстов и 75,19% — на выборке взрослых текстов

  • Точность Среднеквадратическое стиль детских текстов классификации отклонение (%)

Read more

Summary

Функциональный стиль

Тексты, входящие в обучающую выборку, изначально разделены на взрослые и детские. Представленные в таблице 4, послужили основой для формирования признакового пространства. Далее был выполнен поиск признаков, значения которых не встречаются в явном виде в разметке (в основном, количественных). Затем слова текстов каждой из рассматриваемых выборок были представлены в виде множества лексем, объединяющих в себе словоформы каждого встречающегося в тексте слова и соответствующих им частотностей. Были организованы модели bag-of-words [19] для каждой категории текстов. Сами же исходные тексты были представлены в виде набора предложений (рисунок 3). В целях проведения первого шага классификации в качестве признаков, предположительно являющихся маркерами возрастной аудитории, представляется возможным выделить характеристики, описание которых приведено в таблице 5

Тип иллюстраций Номинальный
Количество прилагательных в
Детские тексты
Функциональный Количество
Ошибка первого
GROUPS OF ADDRESSEES
Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call