Abstract

Searches for phrases and word sets in large text arrays by means of additional indexes are considered. A search result is a list of documents that contain specified words. A document which contains the query words near each other is more important. Such a tack required to store one posting per any word occurrence in a document. Some search systems use a list of stop words and exclude any information about a stop word from the index thus reducing search quality. In our paper we store information about all words to ensure search quality and build additional indexes for most frequently used words. Use of the additional indexes may reduce the query processing time by an order of magnitude and more in comparison with standard indexes. A new three component key based index has described. Results of search experiments are given and new search algorithm is provided. The results of the experiments shows 90 times improvement of search time for a class of queries containing most frequently used words in comparison with default inverted file.

Highlights

  • Рассматриваются задачи поиска фраз и наборов слов в большом объеме текстов

  • Где в соответствующих документах искомые слова располагаются друг от друга на, примерно, одинаковом расстоянии, то можно применить отдельную функцию релевантности, для того, чтобы определить, какая из них более важна

  • Т. е. существует некое расстояние M axDistance, если слова располагаются друг от друга на расстоянии не более M axDistance, то связь между ними сильная и это расстояние нужно учитывать

Read more

Summary

Скорость выполнения поискового запроса

Состоящий из нескольких слов, можно рассмотреть как вариант простого запроса информации. Скорость поиска зависит от того, с какой частотой слова запроса встречаются в текстах. Включающие часто встречающиеся слова, могут выполняться существенно дольше, чем запросы, состоящие из редко используемых слов, так при поиске с учетом расстояния скорость выполнения запроса линейно зависит от числа вхождений слов запроса в индексируемых текстах. Включающий в себя самые часто встречающиеся слова, и эти слова пропускаются при поиске. Все слова, авторы утверждают, что пропуск часто встречающихся слов может привести к непредсказуемым эффектам. Часть слов в этих запросах имеет особый смысл, например Who, Yes — наименования исполнителей («Who are you» и «Time and a word» — наименования произведений). Если поисковый запрос состоит полностью из пропускаемых слов (например, «to be or not to be» или «from me to you»), то он вообще не может быть выполнен

Упорядочение по важности
Дополнительные индексы
Разделение Задачи 1 на подзадачи
Виды слов и морфологический анализатор
Виды запросов
Расширенный индекс стоп лемм
Поисковый запрос в структурированном виде
Алгоритм поиска
Выбор набора индексов
Процедура поиска
Процедура сборки результата Collect
Методика проведения эксперимента
Результаты и их обсуждение
Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call