Similarity Join over Array Data

Weijie Zhao, Florin Rusu, Bin Dong, Kesheng Wu

Published: 2016, Last Modified: 30 Sept 2024SIGMOD Conference 2016EveryoneRevisionsBibTeXCC BY-SA 4.0

Abstract: Scientific applications are generating an ever-increasing volume of multi-dimensional data that are largely processed inside distributed array databases and frameworks. Similarity join is a fundamental operation across scientific workloads that requires complex processing over an unbounded number of pairs of multi-dimensional points. In this paper, we introduce a novel distributed similarity join operator for multi-dimensional arrays. Unlike immediate extensions to array join and relational similarity join, the proposed operator minimizes the overall data transfer and network congestion while providing load-balancing, without completely repartitioning and replicating the input arrays. We define formally array similarity join and present the design, optimization strategies, and evaluation of the first array similarity join operator.