Тематическое моделирование текстов на естественном языке

Anton Korshunov,Andrey Gomzin

doi:10.15514/ispras-2012-23-13

Abstract

Topic modeling is a method for building a model of a collection of text documents. The model is able to determine topics for each of documents. Shifting from term space to space of extracted topics helps resolving synonymy and polysemy of terms. Besides, it allows for more efficient topic-sensitive search, classification, summarization, and annotation of document collections and news feeds. The paper shows an evolution of topic modeling techniques. The earlier methods are based on clustering. These algorithms use some similarity function defined on two documents. The next generation of topic modeling techniques is based on Latent Semantic Indexing (LSA). Words co-occurrences in documents are analyzed here. Currently, the most popular are approaches based on Bayesian networks — directed probabilistic graphical models which incorporate different kinds of entities and metadata: document authorship, connections between words, topics, documents, and authors, etc. The paper contains a comparative survey of different models along with methods for parameter estimation and accuracy measurement. The following topic models are considered in the paper: Probabilistic Latent Semantic Indexing, Latent Dirichlet Allocation, non-parametric models, dynamic models, and semi-supervised models. The paper describes well-known quality evaluation metrics: perplexity and topic coherence. Freely available implementations are listed as well.

Highlights

The paper shows an evolution of topic modeling techniques
The generation of topic modeling techniques is based on Latent Semantic Indexing (LSA)
The most popular are approaches based on Bayesian networks — directed probabilistic graphical models which incorporate different kinds of entities and metadata: document authorship, connections between words, topics, documents, and authors, etc

Summary

Введение

В 1958 году Герхард Лисовски и Леонард Рост завершили работу по составлению каталога религиозных текстов на иврите, призванных помочь учёным определить значения терминов, которые были давно утрачены [20]. Помимо кластеризации и классификации документов, найденные темы могут применяться для определения релевантности документа заданной теме или запросу, определения тематического сходства документа с другими документами и их фрагментами, построения тематических профилей авторов, разбиения документа на тематически однородные фрагменты и т.д. В силу своей универсальности и расширяемости, современные способы тематического моделирования находят применение в широком спектре приложений [5, 21, 22, 27]: кластеризация, классификация, ранжирование, аннотирование и суммаризация отчётов, научных публикаций, переписки, блогов, студенческих работ и т.д.; тематический поиск документов и связанных с ними объектов: рисунков, авторов, организаций, журналов, конференций; фильтрация спама; рубрикация коллекций изображений, видео, музыки; поиск генетических паттернов в различных популяциях и определение пропорции этих паттернов у конкретного индивидуума; коллаборативная фильтрация в сервисах рекомендаций; построение тематических профилей пользователей форумов, блогов и социальных сетей для поиска тематических сообществ и определения наиболее активных их участников; анализ новостных потоков и сообщений из социальных сетей для определения актуальных событий реального мира и реакции пользователей на них. Раздел 3 содержит описание метода латентно-семантического индексирования (LSI), который рассматривает исходный набор данных как матрицу «документ-термин» и использует матричные разложения для извлечения скрытых тем. Раздел 7 содержит примеры программных реализаций алгоритмов тематического моделирования

Кластеризация и классификация документов

Латентно-семантическое индексирование

Вероятностные тематические модели

Вероятностное латентно-семантическое индексирование

Выбрать слово v — значение переменной w на основе распределения

Скрытое размещение Дирихле

Оценивание параметров модели скрытого размещения Дирихле

Второе поколение вероятностных тематических моделей

Иерархическое скрытое размещение Дирихле

Непараметрические модели

Онлайн-модели

Обобщающая способность модели

Эффективность приложений

Интерпретируемость

Программные реализации

Заключение

Full Text

Published version (

Free)

Open DOI Link

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

Journal: Proceedings of the Institute for System Programming of the RAS	Publication Date: Jan 1, 2012
Citations: 15	License type: cc-by

R Discovery Prime

R Discovery Prime

Тематическое моделирование текстов на естественном языке

Abstract

Highlights

Summary

Talk to us

Similar Papers

More From: Proceedings of the Institute for System Programming of the RAS

Lead the way for us

Similar Papers

Latent Dirichlet Allocation - An approach for topic discovery
Astha Goyal ... Indu Kashyap
-
Astha Goyal, et. al.Astha Goyal ... Indu Kashyap
26 May 2022
26 May 2022

A Survey of Topic Modeling in Text Mining
Rubayyi Alghamdi ... Khalid Alfalqi
International Journal of Advanced Computer Science and Applications | VOL. 6
Rubayyi Alghamdi, et. al.Rubayyi Alghamdi ... Khalid Alfalqi
01 Jan 2015
International Journal of Advanced Computer Science and Applications | VOL. 6

Improve topic modeling algorithms based on Twitter hashtags
Hayder M Alash ... Ghaidaa A Al-Sultany
Journal of Physics: Conference Series | VOL. 1660
Hayder M Alash, et. al.Hayder M Alash ... Ghaidaa A Al-Sultany
01 Nov 2020
Journal of Physics: Conference Series | VOL. 1660

A Comprehensive Survey on Topic Modeling in Text Summarization
G Bharathi Mohan ... R Prasanna Kumar
-
G Bharathi Mohan, et. al.G Bharathi Mohan ... R Prasanna Kumar
01 Jan 2021
01 Jan 2021

Editage

Paperpal

R Discovery

Mind the Graph

R Discovery Prime

R Discovery Prime

Тематическое моделирование текстов на естественном языке

Abstract

Highlights

Summary

Talk to us

Similar Papers

More From: Proceedings of the Institute for System Programming of the RAS