Abstract

We consider the problem of maintaining frequency counts for items occurring frequently in the union of multiple distributed data streams. Naive methods of combining approximate frequency counts from multiple nodes tend to result in excessively large data structures that are costly to transfer among nodes. To minimize communication requirements, the degree of precision maintained by each node while counting item frequencies must be managed carefully. We introduce the concept of a precision gradient for managing precision when nodes are arranged in a hierarchical communication structure. We then study the optimization problem of how to set the precision gradient so as to minimize communication, and provide optimal solutions that minimize worst-case communication load over all possible inputs. We then introduce a variant designed to perform well in practice, with input data that does not conform to worst-case characteristics. We verify the effectiveness of our approach empirically using real-world data, and show that our methods incur substantially less communication than naive approaches while providing the same error guarantees on answers.

Highlights

  • Il existe un grand le nombre de modèles de recherche d'information ; Leur principale différence réside dans la façon dont les documents disponibles et le besoin en information de l’utilisateur sont représentés et mis en correspondance [VanR79]

  • Nous avons pu constater que ce modèle permet d’atteindre les meilleures valeurs de précision, ce qui est un atout certain pour certaines applications telles que celles dédiées à des professionnels

  • Communications of the ACM, 26(12):1022-1036, December 1983

Read more

Summary

Introduction

Il existe un grand le nombre de modèles de recherche d'information ; Leur principale différence réside dans la façon dont les documents disponibles et le besoin en information de l’utilisateur sont représentés et mis en correspondance [VanR79]. Dans la plupart des modèles existants, la requête est représentée sous forme d’un ensemble de termes pondérés (selon le modèle considéré) et de ce fait, ils ne permettent pas à l’utilisateur de préciser clairement son besoin et, retournent une masse importante de documents pas tous pertinents. Nous nous intéressons donc à l’ajout de certains critères sur les termes de la requête afin d’augmenter l’expressivité du système de recherche. En nous inspirant de certains modèles augmentant les termes de la requête par un critère d’obligation/option, nous proposons un modèle qui permet aussi l’ajout d’un critère de certitude/incertitude et qui permet l’utilisation multiple des termes au niveau de l’index et de la requête. Des expérimentations sur un corpus technique nous permettent de nous positionner par rapport aux modèles booléen et vectoriel

Motivations
Description formelle du modèle proposé
Le document indexé et la requête
La correspondance entre la requête et les documents
Expérimentations
Conclusion
Full Text
Paper version not known

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call