Abstract

Top-k keyword and top-k document extraction are very popular text analysis techniques. Top-k keywords and documents are often computed on-the-fly, but they exploit weighted vocabularies that are costly to build. To compare competing weighting schemes and database implementations, benchmarking is customary. To the best of our knowledge, no benchmark currently addresses these problems. Hence, in this paper, we present T2K2, a top-k keywords and documents benchmark, and its decision support-oriented evolution T2K2D2. Both benchmarks feature a real tweet dataset and queries with various complexities and selectivities. They help evaluate weighting schemes and database implementations in terms of computing performance. To illustrate our benchmarks’ relevance and genericity, we successfully ran performance tests on the TF-IDF and Okapi BM25 weighting schemes, on one hand, and on different relational (Oracle, PostgreSQL) and document-oriented (MongoDB) database implementations, on the other hand.

Highlights

  • To cite this version: Ciprian-Octavian Truica, Jérôme Darmont, Alexandru Boicea, Florin Radulescu

  • The documents may come from teaching and research institutions in France or abroad, or from public or private research centers

  • Parmi ces méthodes d’analyse, la recherche des k mots clés ou documents les plus fréquents est très courante

Read more

Summary

Jérôme Darmont

(1) Comme le modèle de données de T2K2 est su samment générique pour prendre en compte tout type de document textuel (et pas seulement des tweets), nous complétons son modèle de charge par des requêtes de calcul de top-k documents. (4) Nous complétons nos premières expériences sur les top-k mots clés et documents avec le banc d’essais T2K2D2, toujours en comparant les méthodes de pondération TF-IDF et Okapi BM25 sur des implémentations Oracle, PostgreSQL et MongoDB. Bien que les systèmes de RI utilisent aussi des champs de données [6], ils ne calculent les poids qu’une seule fois et les fonctions de classement ne les mettent à jour ni quand des sousensembles du corpus sont utilisés, ni quand le volume de donnée croît [3], ce qui provoque des erreurs dans le calcul des top-k mots clés et documents. Nos résultats expérimentaux sont synthétisés dans le Tableau 1, qui indique le SGBD qui a obtenu les meilleures performances de calcul des top-k mots clés et documents en fonction du banc d’essais et de la méthode de pondération utilisés. Les résultats détaillés sont discutés dans [17]

Oracle Oracle Oracle Oracle
Proceedings of the ACM SIGIR International Conference on Theory of Information

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.