Abstract

The article is devoted to comparison of stylometric features of several levels, which are markers of the style of the prose text and analysis of the stylistic changes in Russian and British prose of the 19th - 21st centuries. Stylometric features include the low-level features based on the words and symbols and high-level based on rhythmic. These features model the style of a text and are the indicators of the time when the text was created. Calculations of all the features are performed completely automatically, so it allows to conduct the large-scale experiments with artworks of a large volume and speeds up the work of a linguist. To calculate the stylometric features including ones based on the search results for rhythmic figures the ProseRhythmDetector program is used. As a result of its work, each text is presented as a set of the same features of three levels: characters, words, rhythm. Texts are combined by decades, for each decade there are found average values of stylometric features. The obtained models of decades are compared using standard similarity metrics, results of comparison are visualized in the form of the heat maps and dendrograms. Experiments with two corpora of Russian and British texts show that during the 19th - 21st centuries there are general trends in style change for both corpora, for example, a decrease in the number of rhythmic figures per sentence, and also particular trends for each language, for example, dynamics of change of the word and sentence lengths. Stylometric features of all levels reveal the similarity in the style of texts published in one century. Also, features of three levels in the complex better demonstrate the uniqueness of each decade than features of a particular level. This study shows the importance of stylometric features as style markers of the different eras and allows us to identify trends in style during several centuries.

Highlights

  • Статья посвящена сравнению стилометрических характеристик нескольких уровней, являющихся маркерами стиля прозаического текста, и анализу стилистических изменений русской и британской прозы 19–21 веков

  • Эксперименты с двумя корпусами русских и британских текстов показывают, что в течение 19–21 веков появляются как общие тенденции изменения стиля для обоих корпусов, например, уменьшение количества ритмических средств в расчёте на одно предложение, так и собственные для каждого языка, например, динамика изменения длин слов и предложений

  • Для русских текстов дендрограмма показывает меньшие расстояния по ритму между десятилетиями, чем для британских текстов

Read more

Summary

Обзор смежных работ

Стилометрия – научная дисциплина, занимающаяся измерением стилевых характеристик текстов с целью их упорядочивания, диагностики, идентификации, параметризации, таксономии, атрибуции и периодизации [5]. Стилометрические характеристики прозаических текстов изменяются с течением времени для литературы на разных языках, поэтому они могут служить индикаторами эпохи создания произведений [6]. Для решения подобных задач обычно берутся простые характеристики уровня слов и символов. Что стилометрические характеристики различных уровней хорошо моделируют стиль текста и могут указывать на конкретную эпоху его создания. С применением нейросетей классификация текстов по языкам на основе характеристик уровня символов и слов может достигать более высоких значений -меры 70–80 % [11]. Но такие исследования затрагивают только низкоуровневые характеристики, оставляя открытым вопрос значимости лингвистических характеристик для моделирования и анализа стиля. Авторы в предыдущей работе [12] исследовали вариативность ритмических характеристик для различных периодов времени (19–21 веков) и языков (русского и английского), где показали, что все три века отличаются по ритму. В этой статье описываются результаты сравнительного анализа стилометрических характеристик нескольких уровней

Стилометрические характеристики
Основные этапы экспериментов
Визуализация стилометрических характеристик
Программная реализация и корпус
Тепловые карты близости
Тепловые карты диапазонов
Дендрограммы
Обсуждение результатов
Full Text
Paper version not known

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.