Similarity Search

Similarity search aims to efficiently identify data points most similar to a given query within massive datasets. Current research focuses on improving the speed and accuracy of similarity search across diverse data types (images, text, graphs, time series) using techniques like transformer-based architectures, graph neural networks, and optimized quantization methods, often incorporating metric learning and efficient indexing structures. These advancements are crucial for applications ranging from large-scale image retrieval and malware analysis to natural language processing tasks like machine translation and legal document annotation, enabling faster and more accurate information access and analysis.

Papers

May 21, 2023

Description-Based Text Similarity
Shauli Ravfogel, Valentina Pyatkin, Amir DN Cohen, Avshalom Manevich, Yoav Goldberg
High Similarity Text Embeddings Similarity Search Text Similarity Vector Embeddings

April 26, 2023

Filter Pruning via Filters Similarity in Consecutive Layers
Xiaorui Wang, Jun Wang, Xin Tang, Peng Gao, Rui Fang, Guotong Xie
Convolutional Neural Network Pruning Method Intermediate Layer Filter Pruning Similarity Search

April 7, 2023

Similarity search in the blink of an eye with compressed indices
Cecilia Aguerrebere, Ishwar Bhati, Mark Hildebrand, Mariano Tepper, Ted Willke
Human Eye Approximate Nearest Neighbor Search Similarity Search Market Index

October 25, 2022

Similarity between Units of Natural Language: The Transition from Coarse to Fine Estimation
Wenchuan Mu
Natural Language High Similarity Coarse to Fine Basic UniT Similarity Search Similarity Based

August 23, 2022

Satellite Image Search in AgoraEO
Ahmet Kerem Aksoy, Pavel Dushev, Eleni Tzirita Zacharatou, Holmer Hemsen, Marcela Charfuelan, Jorge-Arnulfo Quiané-Ruiz, Begüm Demir, Volker Markl
Remote Sensing Image Satellite Imagery Satellite Observation Similarity Search

April 21, 2022

A Learned Index for Exact Similarity Search in Metric Spaces
Yao Tian, Tingyun Yan, Xi Zhao, Kai Huang, Xiaofang Zhou
Nearest Neighbor Indexing Method Data Transformation Similarity Search Metric Space Efficient Query

January 19, 2022

Similarity search on neighbor's graphs with automatic Pareto optimal performance and minimum expected quality setups based on hyperparameter optimization
Eric S. Tellez, Guillermo Ruiz
Graph Drawing Hyperparameter Optimization Nearest Neighbor Metaheuristic Algorithm Pareto Optimal Thy Neighbor Pareto Set Similarity Search Neighborhood Graph

January 4, 2022

Elastic Product Quantization for Time Series
Pieter Robberechts, Wannes Meert, Jesse Davis
Time Series Similarity Search Product Quantization Time Warp

December 21, 2021

Sentence Embeddings and High-speed Similarity Search for Fast Computer Assisted Annotation of Legal Documents
Hannes Westermann, Jaromir Savelka, Vern R. Walker, Kevin D. Ashley, Karim Benyekhlef
Sentence Embeddings Annotation Rather Legal Document Individual Annotator Point Annotation Annotation Tool Similarity Search Human Annotator Annotation Process

December 17, 2021

Sublinear Time Approximation of Text Similarity Matrices
Archan Ray, Nicholas Monath, Andrew McCallum, Cameron Musco
Pairwise Similarity Similarity Search Sublinear Time Similarity Matrix

November 3, 2021

LAION-400M: Open Dataset of CLIP-Filtered 400 Million Image-Text Pairs
Christoph Schuhmann, Richard Vencu, Romain Beaumont, Robert Kaczmarczyk, Clayton Mullis, Aarush Katta, Theo Coombes, Jenia Jitsev, Aran Komatsuzaki
Vision Language Model Shot Learning Image Text Pair Open Dataset CLIP Embeddings Similarity Search