Finding (Recently) Frequent Items in Distributed Data Streams

A. Manjhi,C. Olston,V. Shkapenyuk,K. Dhamdhere

doi:10.1109/icde.2005.68

Abstract

We consider the problem of maintaining frequency counts for items occurring frequently in the union of multiple distributed data streams. Naive methods of combining approximate frequency counts from multiple nodes tend to result in excessively large data structures that are costly to transfer among nodes. To minimize communication requirements, the degree of precision maintained by each node while counting item frequencies must be managed carefully. We introduce the concept of a precision gradient for managing precision when nodes are arranged in a hierarchical communication structure. We then study the optimization problem of how to set the precision gradient so as to minimize communication, and provide optimal solutions that minimize worst-case communication load over all possible inputs. We then introduce a variant designed to perform well in practice, with input data that does not conform to worst-case characteristics. We verify the effectiveness of our approach empirically using real-world data, and show that our methods incur substantially less communication than naive approaches while providing the same error guarantees on answers.

Highlights

Il existe un grand le nombre de modèles de recherche d'information ; Leur principale différence réside dans la façon dont les documents disponibles et le besoin en information de l’utilisateur sont représentés et mis en correspondance [VanR79]
Nous avons pu constater que ce modèle permet d’atteindre les meilleures valeurs de précision, ce qui est un atout certain pour certaines applications telles que celles dédiées à des professionnels
Communications of the ACM, 26(12):1022-1036, December 1983

Summary

Introduction

Il existe un grand le nombre de modèles de recherche d'information ; Leur principale différence réside dans la façon dont les documents disponibles et le besoin en information de l’utilisateur sont représentés et mis en correspondance [VanR79]. Dans la plupart des modèles existants, la requête est représentée sous forme d’un ensemble de termes pondérés (selon le modèle considéré) et de ce fait, ils ne permettent pas à l’utilisateur de préciser clairement son besoin et, retournent une masse importante de documents pas tous pertinents. Nous nous intéressons donc à l’ajout de certains critères sur les termes de la requête afin d’augmenter l’expressivité du système de recherche. En nous inspirant de certains modèles augmentant les termes de la requête par un critère d’obligation/option, nous proposons un modèle qui permet aussi l’ajout d’un critère de certitude/incertitude et qui permet l’utilisation multiple des termes au niveau de l’index et de la requête. Des expérimentations sur un corpus technique nous permettent de nous positionner par rapport aux modèles booléen et vectoriel

Motivations

Description formelle du modèle proposé

Le document indexé et la requête

La correspondance entre la requête et les documents

Expérimentations

Conclusion

Full Text

Paper version not known

Open DOI Link

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

R Discovery Prime

R Discovery Prime

Finding (Recently) Frequent Items in Distributed Data Streams

Abstract

Highlights

Summary

Talk to us

Similar Papers

Lead the way for us

Publication Date: Apr 5, 2005
Citations: 185	License type: cc-by

Similar Papers

FIDS: Monitoring Frequent Items over Distributed Data Streams
Robert Fuller ... Mehmed Kantardzic
-
Robert Fuller, et. al.Robert Fuller ... Mehmed Kantardzic
18 Jul 2007
18 Jul 2007

Finding the frequent items in streams of data
Graham Cormode ... Marios Hadjieleftheriou
Communications of The ACM | VOL. 52
Graham Cormode, et. al.Graham Cormode ... Marios Hadjieleftheriou
01 Oct 2009
Communications of The ACM | VOL. 52

Distributed Sequence Pattern Detection Over Multiple Data Streams
Ahmed Khan Leghari ... Jianneng Cao
-
Ahmed Khan Leghari, et. al.Ahmed Khan Leghari ... Jianneng Cao
01 Jan 2015
01 Jan 2015

Correlating synchronous and asynchronous data streams
Sudipto Guha ... Nick Koudas
-
Sudipto Guha, et. al.Sudipto Guha ... Nick Koudas
24 Aug 2003
24 Aug 2003

Editage

Paperpal

R Discovery

Mind the Graph

R Discovery Prime

R Discovery Prime

Finding (Recently) Frequent Items in Distributed Data Streams

Abstract

Highlights

Summary

Talk to us

Similar Papers