Применение трехкомпонентных ключей для полнотекстового поиска с учетом расстояния с гарантированным временем отклика

Александр Борисович Веретенников

doi:10.14529/cmse180105

Abstract

Searches for phrases and word sets in large text arrays by means of additional indexes are considered. A search result is a list of documents that contain specified words. A document which contains the query words near each other is more important. Such a tack required to store one posting per any word occurrence in a document. Some search systems use a list of stop words and exclude any information about a stop word from the index thus reducing search quality. In our paper we store information about all words to ensure search quality and build additional indexes for most frequently used words. Use of the additional indexes may reduce the query processing time by an order of magnitude and more in comparison with standard indexes. A new three component key based index has described. Results of search experiments are given and new search algorithm is provided. The results of the experiments shows 90 times improvement of search time for a class of queries containing most frequently used words in comparison with default inverted file.

Highlights

Рассматриваются задачи поиска фраз и наборов слов в большом объеме текстов
Где в соответствующих документах искомые слова располагаются друг от друга на, примерно, одинаковом расстоянии, то можно применить отдельную функцию релевантности, для того, чтобы определить, какая из них более важна
Т. е. существует некое расстояние M axDistance, если слова располагаются друг от друга на расстоянии не более M axDistance, то связь между ними сильная и это расстояние нужно учитывать

Summary

Скорость выполнения поискового запроса

Состоящий из нескольких слов, можно рассмотреть как вариант простого запроса информации. Скорость поиска зависит от того, с какой частотой слова запроса встречаются в текстах. Включающие часто встречающиеся слова, могут выполняться существенно дольше, чем запросы, состоящие из редко используемых слов, так при поиске с учетом расстояния скорость выполнения запроса линейно зависит от числа вхождений слов запроса в индексируемых текстах. Включающий в себя самые часто встречающиеся слова, и эти слова пропускаются при поиске. Все слова, авторы утверждают, что пропуск часто встречающихся слов может привести к непредсказуемым эффектам. Часть слов в этих запросах имеет особый смысл, например Who, Yes — наименования исполнителей («Who are you» и «Time and a word» — наименования произведений). Если поисковый запрос состоит полностью из пропускаемых слов (например, «to be or not to be» или «from me to you»), то он вообще не может быть выполнен

Упорядочение по важности

Дополнительные индексы

Разделение Задачи 1 на подзадачи

Виды слов и морфологический анализатор

Виды запросов

Расширенный индекс стоп лемм

Поисковый запрос в структурированном виде

Алгоритм поиска

Выбор набора индексов

Процедура поиска

Процедура сборки результата Collect

Методика проведения эксперимента

Результаты и их обсуждение

Full Text

Published version (

Free)

Open DOI Link

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

Journal: Bulletin of the South Ural State University. Series "Computational Mathematics and Software Engineering"	Publication Date: Feb 1, 2018
Citations: 2	License type: cc-by

R Discovery Prime

R Discovery Prime

Применение трехкомпонентных ключей для полнотекстового поиска с учетом расстояния с гарантированным временем отклика

Abstract

Highlights

Summary

Talk to us

Similar Papers

More From: Bulletin of the South Ural State University. Series "Computational Mathematics and Software Engineering"

Lead the way for us

Similar Papers

Automatic Identification of Stop Words in Chinese Text Classification
Lili Hao ... Lizhu Hao
-
Lili Hao, et. al.Lili Hao ... Lizhu Hao
01 Jan 2008
01 Jan 2008

A Rule-Based Approach to Identify Stop Words for Gujarati Language
Rajnish M Rakholia ... Jatinderkumar R Saini
-
Rajnish M Rakholia, et. al.Rajnish M Rakholia ... Jatinderkumar R Saini
01 Jan 2017
01 Jan 2017

Domain-specific Stop Words in Malaysian Parliamentary Debates 1959 – 2018
Anis Nadiah Che Abdul Rahman ... Imran Ho Abdullah
GEMA Online® Journal of Language Studies | VOL. 21
Anis Nadiah Che Abdul Rahman, et. al.Anis Nadiah Che Abdul Rahman ... Imran Ho Abdullah
31 May 2021
Domain-specific Stop Words in Malaysian Parliamentary Debates 1959 – 2018
Anis Nadiah Che Abdul Rahman ... Imran Ho Abdullah

Farsi lexical analysis and stop word list
M.R Davarpanah ... M Aramideh
Library Hi Tech | VOL. 27
M.R Davarpanah, et. al.M.R Davarpanah ... M Aramideh
04 Sep 2009
Library Hi Tech | VOL. 27

Editage

Paperpal

R Discovery

Mind the Graph

R Discovery Prime

R Discovery Prime

Применение трехкомпонентных ключей для полнотекстового поиска с учетом расстояния с гарантированным временем отклика

Abstract

Highlights

Summary

Talk to us

Similar Papers

More From: Bulletin of the South Ural State University. Series "Computational Mathematics and Software Engineering"