Abstract

Topic modeling is a method for building a model of a collection of text documents. The model is able to determine topics for each of documents. Shifting from term space to space of extracted topics helps resolving synonymy and polysemy of terms. Besides, it allows for more efficient topic-sensitive search, classification, summarization, and annotation of document collections and news feeds. The paper shows an evolution of topic modeling techniques. The earlier methods are based on clustering. These algorithms use some similarity function defined on two documents. The next generation of topic modeling techniques is based on Latent Semantic Indexing (LSA). Words co-occurrences in documents are analyzed here. Currently, the most popular are approaches based on Bayesian networks — directed probabilistic graphical models which incorporate different kinds of entities and metadata: document authorship, connections between words, topics, documents, and authors, etc. The paper contains a comparative survey of different models along with methods for parameter estimation and accuracy measurement. The following topic models are considered in the paper: Probabilistic Latent Semantic Indexing, Latent Dirichlet Allocation, non-parametric models, dynamic models, and semi-supervised models. The paper describes well-known quality evaluation metrics: perplexity and topic coherence. Freely available implementations are listed as well.

Highlights

  • The paper shows an evolution of topic modeling techniques

  • The generation of topic modeling techniques is based on Latent Semantic Indexing (LSA)

  • The most popular are approaches based on Bayesian networks — directed probabilistic graphical models which incorporate different kinds of entities and metadata: document authorship, connections between words, topics, documents, and authors, etc

Read more

Summary

Введение

В 1958 году Герхард Лисовски и Леонард Рост завершили работу по составлению каталога религиозных текстов на иврите, призванных помочь учёным определить значения терминов, которые были давно утрачены [20]. Помимо кластеризации и классификации документов, найденные темы могут применяться для определения релевантности документа заданной теме или запросу, определения тематического сходства документа с другими документами и их фрагментами, построения тематических профилей авторов, разбиения документа на тематически однородные фрагменты и т.д. В силу своей универсальности и расширяемости, современные способы тематического моделирования находят применение в широком спектре приложений [5, 21, 22, 27]: кластеризация, классификация, ранжирование, аннотирование и суммаризация отчётов, научных публикаций, переписки, блогов, студенческих работ и т.д.; тематический поиск документов и связанных с ними объектов: рисунков, авторов, организаций, журналов, конференций; фильтрация спама; рубрикация коллекций изображений, видео, музыки; поиск генетических паттернов в различных популяциях и определение пропорции этих паттернов у конкретного индивидуума; коллаборативная фильтрация в сервисах рекомендаций; построение тематических профилей пользователей форумов, блогов и социальных сетей для поиска тематических сообществ и определения наиболее активных их участников; анализ новостных потоков и сообщений из социальных сетей для определения актуальных событий реального мира и реакции пользователей на них. Раздел 3 содержит описание метода латентно-семантического индексирования (LSI), который рассматривает исходный набор данных как матрицу «документ-термин» и использует матричные разложения для извлечения скрытых тем. Раздел 7 содержит примеры программных реализаций алгоритмов тематического моделирования

Кластеризация и классификация документов
Латентно-семантическое индексирование
Вероятностные тематические модели
Вероятностное латентно-семантическое индексирование
Выбрать слово v — значение переменной w на основе распределения
Скрытое размещение Дирихле
Оценивание параметров модели скрытого размещения Дирихле
Второе поколение вероятностных тематических моделей
Иерархическое скрытое размещение Дирихле
Непараметрические модели
Онлайн-модели
Обобщающая способность модели
Эффективность приложений
Интерпретируемость
Программные реализации
Заключение
Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call