Cross Modal Retrieval

Cross-modal retrieval aims to find relevant items across different data types (e.g., images and text, audio and video) by learning shared representations that capture semantic similarities. Current research focuses on improving retrieval accuracy in the face of noisy data, mismatched pairs, and the "modality gap" using techniques like contrastive learning, masked autoencoders, and optimal transport. These advancements are crucial for applications ranging from medical image analysis and robotics to multimedia search and music recommendation, enabling more effective information access and integration across diverse data sources.

Papers

May 9, 2023

ImageBind: One Embedding Space To Bind Them All
Rohit Girdhar, Alaaeldin El-Nouby, Zhuang Liu, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin, Ishan Misra
Zero Shot Multi Modal Deep Space Image Pair Cross Modal Retrieval

May 7, 2023

April 21, 2023

Rethinking Benchmarks for Cross-modal Image-text Retrieval
Weijing Chen, Linli Yao, Qin Jin
Fine Grained Cross Modal Cross Modal Retrieval Image Text Retrieval Retrieval Benchmark

April 20, 2023

Image-text Retrieval via Preserving Main Semantics of Vision
Xu Zhang, Xinzheng Niu, Philippe Fournier-Viger, Xudong Dai
Vision Paper Cross Modal Retrieval Semantics Surfaced Image Text Retrieval Annotated Chapter Information Semantic Loss

April 15, 2023

CoVLR: Coordinating Cross-Modal Consistency and Intra-Modal Structure for Vision-Language Retrieval
Yang Yang, Zhongtian Fu, Xiangyu Wu, Wenjie Li
Cross Modal Cross Modal Retrieval Multimodal Retrieval Intra Modality

April 13, 2023

Noisy Correspondence Learning with Meta Similarity Correction
Haochen Han, Kaiyao Miao, Qinghua Zheng, Minnan Luo
Multimodal Learning Cross Modal Retrieval Noisy Correspondence Noisy Correspondence Learning Meta Similarity Correction Network Meta Label Correction

April 6, 2023

Exposing and Mitigating Spurious Correlations for Cross-Modal Retrieval
Jae Myung Kim, A. Sophia Koepke, Cordelia Schmid, Zeynep Akata
Cross Modal Retrieval Spurious Correlation Image Text Retrieval Object Correlation

April 4, 2023

AToMiC: An Image/Text Retrieval Test Collection to Support Multimedia Content Creation
Jheng-Hong Yang, Carlos Lassance, Rafael Sampaio de Rezende, Krishna Srinivasan, Miriam Redi, Stéphane Clinchant, Jimmy Lin
Cross Modal Retrieval Image Caption Single Atom Multimedia Retrieval Content Creation Text to Image Association

March 10, 2023

Single-branch Network for Multimodal Training
Muhammad Saad Saeed, Shah Nawaz, Muhammad Haris Khan, Muhammad Zaigham Zaheer, Karthik Nandakumar, Muhammad Haroon Yousaf, Arif Mahmood
Cross Modal Retrieval Multimodal Task Multi Modal Training Multimodal Problem Face Voice Branch Network Multimodal Application

February 28, 2023

Audio Retrieval for Multimodal Design Documents: A New Dataset and Algorithms
Prachi Singh, Srikrishna Karanam, Sumit Shekhar
Practical Algorithm Cross Modal Retrieval Audio Text Audio Retrieval Multimodal Design Document

February 13, 2023

VITR: Augmenting Vision Transformers with Relation-Focused Learning for Cross-Modal Information Retrieval
Yan Gong, Georgina Cosma, Axel Finke
Vision Transformer Cross Modal Retrieval Text to Image Retrieval Relation Learning Cross Modal Information Retrieval

January 12, 2023

Scene-centric vs. Object-centric Image-Text Cross-modal Retrieval: A Reproducibility Study
Mariya Hendriksen, Svitlana Vakulenko, Ernst Kuiper, Maarten de Rijke
Cross Modal Cross Modal Retrieval Object Centric Reproducibility Study Scene Context Scene Centric

January 10, 2023

Pix2Map: Cross-modal Retrieval for Inferring Street Maps from Images
Xindi Wu, KwunFung Lau, Francesco Ferroni, Aljoša Ošep, Deva Ramanan
Cross Modal Retrieval Road Network MAP Estimation Road Topology Urban Mapping

December 29, 2022

BagFormer: Better Cross-Modal Retrieval via bag-wise interaction
Haowen Hou, Xiaopeng Yan, Yigeng Zhang, Fengzong Lian, Zhanhui Kang
Cross Modal Retrieval Dual Encoder Model

December 15, 2022

Retrieval-based Disentangled Representation Learning with Natural Language Supervision
Jiawei Zhou, Xiaoguang Li, Lifeng Shang, Xin Jiang, Qun Liu, Lei Chen
Representation Learning Cross Modal Retrieval Disentangled Representation Dense Retriever Retrieval Benchmark Language Supervision

December 11, 2022

Using Multiple Instance Learning to Build Multimodal Representations
Peiqi Wang, William M. Wells, Seth Berkowitz, Steven Horng, Polina Golland
Multiple Instance Learning Cross Modal Retrieval Multimodal Representation Multimodal Representation Learning

November 30, 2022

November 23, 2022

VoP: Text-Video Co-operative Prompt Tuning for Cross-Modal Retrieval
Siteng Huang, Biao Gong, Yulin Pan, Jianwen Jiang, Yiliang Lv, Yuyuan Li, Donglin Wang
Cross Modal Retrieval Retrieval Benchmark Text Video Retrieval Improved Technique