A model for word clustering

James A Thom,Justin Zobel

doi:10.1002/(sici)1097-4571(199210)43:9<616::aid-asi4>3.0.co;2-a

A model for word clustering

James A Thom, Justin Zobel

https://doi.org/10.1002/(sici)1097-4571(199210)43:9<616::aid-asi4>3.0.co;2-a

Copy DOI

Journal: Journal of the American Society for Information Science. American Society for Information Science	Publication Date: Oct 1, 1992
Citations: 9

Affiliation: Royal Melbourne Hospital

#Distribution Of Words In Text #Number Of Distinct Words + Show 8 more

Abstract
Full-Text PDF
Similar Papers

Abstract

It is common to model the distribution of words in text by measures such as the Poisson approximation. However, these measures ignore effects such as clustering: our analysis of document collections demonstrates that the Poisson approximation can significantly overestimate the probability that a document contains a word. Based on our analysis, we propose a new model for distribution of words in text, and show how this model can be used to estimate the probability that a document contains a word and the number of distinct words in a document. © 1992 John Wiley & Sons, Inc.

Full Text