Cross Modal Retrieval

Cross-modal retrieval aims to find relevant items across different data types (e.g., images and text, audio and video) by learning shared representations that capture semantic similarities. Current research focuses on improving retrieval accuracy in the face of noisy data, mismatched pairs, and the "modality gap" using techniques like contrastive learning, masked autoencoders, and optimal transport. These advancements are crucial for applications ranging from medical image analysis and robotics to multimedia search and music recommendation, enabling more effective information access and integration across diverse data sources.

Papers

April 19, 2022

Unsupervised Contrastive Hashing for Cross-Modal Retrieval in Remote Sensing
Georgii Mikriukov, Mahdyar Ravanbakhsh, Begüm Demir
Cross Modal Remote Sensing Cross Modal Retrieval Cross Modal Hashing Contrastive Hashing

April 18, 2022

Learning Similarity Preserving Binary Codes for Recommender Systems
Yang Shi, Young-joo Chung
Recommender System Matrix Factorization Collaborative Filtering Cross Modal Retrieval Binary Code Similarity Learning

April 15, 2022

COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval
Haoyu Lu, Nanyi Fei, Yuqi Huo, Yizhao Gao, Zhiwu Lu, Ji-Rong Wen
Vision Language Cross Modal Retrieval Text to Image Retrieval Text to Video Retrieval BED Turnaround Time

March 31, 2022

ViSTA: Vision and Scene Text Aggregation for Cross-Modal Retrieval
Mengjun Cheng, Yipeng Sun, Longchao Wang, Xiongwei Zhu, Kun Yao, Jie Chen, Guoli Song, Junyu Han, Jingtuo Liu, Errui Ding, Jingdong Wang
Vision Paper Image Text Pair Cross Modal Retrieval Scene Text

March 29, 2022

February 23, 2022

A Novel Self-Supervised Cross-Modal Image Retrieval Method In Remote Sensing
Gencer Sumbul, Markus Müller, Begüm Demir
Remote Sensing Long Form Novel Cross Modal Retrieval Multi Modal Remote Sensing

February 15, 2022

Efficient Cross-Modal Retrieval via Deep Binary Hashing and Quantization
Yang Shi, Young-joo Chung
Quantization Operator Multi Stage Cross Modal Retrieval Efficient Retrieval Deep Hashing Hashing Based

January 26, 2022

Discriminative Supervised Subspace Learning for Cross-modal Retrieval
Haoming Zhang, Xiao-Jun Wu, Tianyang Xu, Donglin Zhang
Cross Modal Retrieval Multi Modal Data Subspace Learning Latent Subspace Discriminative Subspace

January 20, 2022

Deep Unsupervised Contrastive Hashing for Large-Scale Cross-Modal Text-Image Retrieval in Remote Sensing
Georgii Mikriukov, Mahdyar Ravanbakhsh, Begüm Demir
Cross Modal Remote Sensing Cross Modal Retrieval Cross Modal Hashing Contrastive Hashing

January 8, 2022

A Comprehensive Empirical Study of Vision-Language Pre-trained Model for Supervised Cross-Modal Retrieval
Zhixiong Zeng, Wenji Mao
Full Model Vision Language Empirical Study Cross Modal Cross Modal Retrieval Multimodal Processing

December 23, 2021

Cross Modal Retrieval with Querybank Normalisation
Simion-Vlad Bogolin, Ioana Croitoru, Hailin Jin, Yang Liu, Samuel Albanie
Cross Modal Retrieval Joint Embedding Text Normalization Quantified Boolean Formula

December 13, 2021

Multi-Modal Mutual Information Maximization: A Novel Approach for Unsupervised Deep Cross-Modal Hashing
Tuan Hoang, Thanh-Toan Do, Tam V. Nguyen, Ngai-Man Cheung
Cross Modal Mutual Information Novel Approach Cross Modal Retrieval Similar Representation

November 10, 2021

SwAMP: Swapped Assignment of Multi-Modal Pairs for Cross-Modal Retrieval
Minyoung Kim
Contrastive Learning Cross Entropy Loss Cross Modal Retrieval Task Assignment Modality Pair

November 5, 2021

The Curious Layperson: Fine-Grained Image Recognition without Expert Labels
Subhabrata Choudhury, Iro Laina, Christian Rupprecht, Andrea Vedaldi
Fine Grained Cross Modal Retrieval Expert Annotation Image Description