Cross Modal Retrieval

Cross-modal retrieval aims to find relevant items across different data types (e.g., images and text, audio and video) by learning shared representations that capture semantic similarities. Current research focuses on improving retrieval accuracy in the face of noisy data, mismatched pairs, and the "modality gap" using techniques like contrastive learning, masked autoencoders, and optimal transport. These advancements are crucial for applications ranging from medical image analysis and robotics to multimedia search and music recommendation, enabling more effective information access and integration across diverse data sources.

Papers

November 21, 2022

Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative Latent Attention
Zineng Tang, Jaemin Cho, Jie Lei, Mohit Bansal
Cross Attention Cross Modal Retrieval Efficient Vision Language Model Uni Perceiver

November 7, 2022

Complete Cross-triplet Loss in Label Space for Audio-visual Cross-modal Retrieval
Donghuo Zeng, Yanan Wang, Jianming Wu, Kazushi Ikeda
Audio Visual Cross Modal Retrieval Triplet Loss Label Space

October 26, 2022

FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified Retrieval and Captioning
Suvir Mirchandani, Licheng Yu, Mengjiao Wang, Animesh Sinha, Wenwen Jiang, Tao Xiang, Ning Zhang
Cross Modal Retrieval Generated Caption Multimodal Pre Fashion Image Retrieval Iterative Retrieval

October 24, 2022

Learning by Hallucinating: Vision-Language Pre-training with Weak Supervision
Tzu-Jui Julius Wang, Jorma Laaksonen, Tomas Langer, Heikki Arponen, Tom E. Bishop
LeArning Abstract Vision Language Visual Question Answering Weak Supervision Content Hallucination Cross Modal Retrieval Cross Modal Alignment Text to Image Retrieval

October 19, 2022

Cross-Modal Fusion Distillation for Fine-Grained Sketch-Based Image Retrieval
Abhra Chaudhuri, Massimiliano Mancini, Yanbei Chen, Zeynep Akata, Anjan Dutta
Fine Grained Cross Attention Cross Modal Retrieval Fusion Network Cross Modal Distillation Sketch Based Image Retrieval Fine Grained Sketch

October 9, 2022

ConTra: (Con)text (Tra)nsformer for Cross-Modal Video Retrieval
Adriano Fragomeni, Michael Wray, Dima Damen
Single CLIP Cross Modal Retrieval Context Transformer Cross Modal Video Retrieval

September 30, 2022

ERNIE-ViL 2.0: Multi-view Contrastive Learning for Image-Text Pre-training
Bin Shan, Weichong Yin, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang
Contrastive Learning Cross Modal Retrieval Cross Modal Representation Cross Modal Representation Learning ERNIE ViLG

September 27, 2022

Text-Adaptive Multiple Visual Prototype Matching for Video-Text Retrieval
Chengzhi Lin, Ancong Wu, Junwei Liang, Jun Zhang, Wenhang Ge, Wei-Shi Zheng, Chunhua Shen
Cross Modal Retrieval Video Text Retrieval Video Retrieval Datasets Prototype Matching

September 26, 2022

August 26, 2022

Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning
Yabing Wang, Jianfeng Dong, Tianxiang Liang, Minsong Zhang, Rui Cai, Xun Wang
Cross Modal Retrieval Cross Attention Module Noise Robust Learning Cross Modal Retrieval Benchmark Cross Lingual Cross Modal Retrieval

August 22, 2022

Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks
Wenhui Wang, Hangbo Bao, Li Dong, Johan Bjorck, Zhiliang Peng, Qiang Liu, Kriti Aggarwal, Owais Khan Mohammed, Saksham Singhal, Subhojit Som, Furu Wei
Vision Paper Vision Language Task Cross Modal Retrieval Modality Specific Multimodal Pre Multimodal Foundation Model Different Language

August 7, 2022

See What You See: Self-supervised Cross-modal Retrieval of Visual Stimuli from Brain Activity
Zesheng Ye, Lina Yao, Yu Zhang, Sylvia Gustin
Cross Modal Retrieval Brain Activity Visual Stimulus EEG Representation EEG Reconstruction

July 29, 2022

ALADIN: Distilling Fine-grained Alignment Scores for Efficient Image-Text Matching and Retrieval
Nicola Messina, Matteo Stefanini, Marcella Cornia, Lorenzo Baraldi, Fabrizio Falchi, Giuseppe Amato, Rita Cucchiara
Fine Grained Cross Modal App to App Retrieval Cross Modal Retrieval Image Text Matching Distillation Learning

July 11, 2022

Intra-Modal Constraint Loss For Image-Text Retrieval
Jianan Chen, Lu Zhang, Qiong Wang, Cong Bai, Kidiyo Kpalma
Cross Modal Cross Modal Retrieval Image Text Retrieval Joint Embedding

July 2, 2022

Contrastive Cross-Modal Knowledge Sharing Pre-training for Vision-Language Representation Learning and Retrieval
Keyu Wen, Zhenshan Tan, Qingrong Cheng, Cheng Chen, Xiaodong Gu
Cross Modal Knowledge Transfer App to App Retrieval Cross Modal Retrieval Vision Language Representation

May 24, 2022

HiVLP: Hierarchical Vision-Language Pre-Training for Fast Image-Text Retrieval
Feilong Chen, Xiuyi Chen, Jiaxin Shi, Duzhen Zhang, Jianlong Chang, Qi Tian
Cross Modal Retrieval Image Text Retrieval Retrieval Benchmark Large Scale Retrieval

May 6, 2022

Deep Supervised Information Bottleneck Hashing for Cross-modal Retrieval based Computer-aided Diagnosis
Yufeng Shi, Shuhuang Chen, Xinge You, Qinmu Peng, Weihua Ou, Yue Zhao
Information Retrieval Information Bottleneck Cross Modal Retrieval Computer Aided Diagnosis Cross Modality Image Retrieval Autoencoder Bottleneck

May 5, 2022

Cross-modal Contrastive Learning for Speech Translation
Rong Ye, Mingxuan Wang, Lei Li
Speech Translation Cross Modal Retrieval Unified Representation Cross Modal Contrastive Learning End Speech to Text Translation

April 20, 2022

Uncertainty-based Cross-Modal Retrieval with Probabilistic Representations
Leila Pishdad, Ran Zhang, Konstantinos G. Derpanis, Allan Jepson, Afsaneh Fazly
Cross Modal Retrieval Image Text Matching Text to Image Retrieval Probabilistic Representation Probabilistic Embeddings