GSSJoin: a GPU-based Set Similarity Join Algorithm

Sidney R Junior,Wellington S Martins,Leonardo Andrade Ribeiro,Rafael D Quirino

doi:10.5753/sbbd.2016.24309

GSSJoin: a GPU-based Set Similarity Join Algorithm

Sidney R Junior, Wellington S Martins + Show 2 more

Open Access

https://doi.org/10.5753/sbbd.2016.24309

Copy DOI

Publication Date: Oct 4, 2016

Citations: 2

Affiliation: Universidade Federal de Goiás

Abstract
Full-Text PDF
Similar Papers

Abstract

Set similarity join is a core operation for text data integration, cleaning, and mining. Previous research work on improving the performance of set similarity joins mostly focused on sequential, CPU-based algorithms. Main optimizations of such algorithms exploit high threshold values and the underlying data characteristics to derive efficient filters. In this paper, we investigate strategies to accelerate set similarity join using Graphic Processing Units (GPUs). Our approach exploits massive parallelism instead of filtering and, as a result, exhibits much better robustness to variations of threshold values and data distributions. Experimental evaluation shows that we are able to obtain up to 57x speedups over highly optimized CPU-based algorithms.

Full Text