Cross Modal Retrieval

Cross-modal retrieval aims to find relevant items across different data types (e.g., images and text, audio and video) by learning shared representations that capture semantic similarities. Current research focuses on improving retrieval accuracy in the face of noisy data, mismatched pairs, and the "modality gap" using techniques like contrastive learning, masked autoencoders, and optimal transport. These advancements are crucial for applications ranging from medical image analysis and robotics to multimedia search and music recommendation, enabling more effective information access and integration across diverse data sources.

Papers

July 17, 2024

ModalChorus: Visual Probing and Alignment of Multi-modal Embeddings via Modal Fusion Map
Yilin Ye, Shishi Xiao, Xingchen Zeng, Wei Zeng
Alignment Problem Cross Modal Retrieval Cross Modal Feature Modal Embeddings CLIP Embeddings Modality Fusion Modal Fusion

July 1, 2024

Semantic Compositions Enhance Vision-Language Contrastive Learning
Maxwell Aladago, Lorenzo Torresani, Soroush Vosoughi
Contrastive Learning Zero Shot Vision Language Cross Modal Retrieval Zero Shot Classification Image Caption Pair

June 13, 2024

Multi-Modal Retrieval For Large Language Model Based Speech Recognition
Jari Kolehmainen, Aditya Gourav, Prashanth Gurunath Shivakumar, Yile Gu, Ankur Gandhe, Ariya Rastrow, Grant Strimel, Ivan Bulyko
Large Language Model Language Model Multi Modal Multi Modal Large Language Model Cross Modal Retrieval Multi Modal Language Model

May 29, 2024

May 23, 2024

May 15, 2024

MVBIND: Self-Supervised Music Recommendation For Videos Via Embedding Space Binding
Jiajie Teng, Huiyu Duan, Yucheng Zhu, Sijing Wu, Guangtao Zhai
Cross Modal Retrieval Music Recommendation Online Video Space Binding

May 7, 2024

COM3D: Leveraging Cross-View Correspondence and Cross-Modal Mining for 3D Retrieval
Hao Wu, Ruochong LI, Hao Wang, Hui Xiong
Cross Modal Retrieval Cross Modal Matching 3D Object Retrieval View Correspondence

May 2, 2024

Understanding Retrieval-Augmented Task Adaptation for Vision-Language Models
Yifei Ming, Yixuan Li
Vision Language Model Fine Tuning Human Understanding Cross Modal Retrieval Retrieval Augmentation Task Adaptation Contrastive Vision Language

April 21, 2024

Anchor-aware Deep Metric Learning for Audio-visual Retrieval
Donghuo Zeng, Yanan Wang, Kazushi Ikeda, Yi Yu
Metric Learning Cross Modal Retrieval Audio Visual Retrieval

April 15, 2024

Bridging Vision and Language Spaces with Assignment Prediction
Jungin Park, Jiyoung Lee, Kwanghoon Sohn
Visual Question Answering Visual Representation Vision Language Task Cross Modal Retrieval Language Representation Language Space Bridging Vision

March 26, 2024

The Solution for the CVPR 2023 1st foundation model challenge-Track2
Haonan Xu, Yurui Huang, Sishun Pan, Zhihao Guan, Yi Xu, Yang Yang
Foundation Model Solution Path Cross Modal Retrieval Attribute Recognition Pedestrian Retrieval Natural Language Based Vehicle Retrieval

March 20, 2024

A Unified Optimal Transport Framework for Cross-Modal Retrieval with Noisy Labels
Haochen Han, Minnan Luo, Huan Liu, Fang Nan
Optimal Transport Noisy Label Cross Modal Retrieval Multi Modal Data Retrieval Datasets Cross Modal Matching

March 15, 2024

Improving Medical Multi-modal Contrastive Learning with Expert Annotations
Yogesh Kumar, Pekka Marttinen
Multi Modal Cross Modal Retrieval Expert Annotation

March 8, 2024

Learning to Rematch Mismatched Pairs for Robust Cross-Modal Retrieval
Haochen Han, Qinghua Zheng, Guang Dai, Minnan Luo, Jingdong Wang
LeArning Abstract High Similarity Cross Modal Retrieval Video Dataset Similar Pair Cross Modal Retrieval Benchmark

February 16, 2024

Generative Cross-Modal Retrieval: Memorizing Images in Multimodal Language Models for Retrieval and Beyond
Yongqi Li, Wenjie Wang, Leigang Qu, Liqiang Nie, Wenjie Li, Tat-Seng Chua
Multimodal Large Language Model App to App Retrieval Generative Language Model Cross Modal Retrieval Multimodal Language Model Knowledge Recall Lack Interpretability

February 15, 2024

Mind the Modality Gap: Towards a Remote Sensing Vision-Language Model via Cross-modal Alignment
Angelos Zavras, Dimitrios Michail, Begüm Demir, Ioannis Papoutsis
Vision Language Model Multi Modal Remote Sensing Contrastive Language Image Cross Modal Retrieval Cross Modal Alignment Modality Gap

February 9, 2024

Large Language Models for Captioning and Retrieving Remote Sensing Images
João Daniel Silva, João Magalhães, Devis Tuia, Bruno Martins
Image Captioning Remote Sensing Image Cross Modal Retrieval Generated Caption Captioning Datasets

January 29, 2024

Cross-Modal Coordination Across a Diverse Set of Input Modalities
Jorge Sánchez, Rodrigo Laguna
Cross Modal Retrieval Diverse Set Cross Modal Interaction Input Modality Consistent Representation Modal Similarity