Cross Modal Retrieval

Cross-modal retrieval aims to find relevant items across different data types (e.g., images and text, audio and video) by learning shared representations that capture semantic similarities. Current research focuses on improving retrieval accuracy in the face of noisy data, mismatched pairs, and the "modality gap" using techniques like contrastive learning, masked autoencoders, and optimal transport. These advancements are crucial for applications ranging from medical image analysis and robotics to multimedia search and music recommendation, enabling more effective information access and integration across diverse data sources.

Papers

January 11, 2024

Cross-modal Retrieval for Knowledge-based Visual Question Answering
Paul Lerner, Olivier Ferret, Camille Guinaudeau
Cross Modal Retrieval Knowledge Based Visual Question Answering Multimodal Retrieval Knowledge Based Visual Question

January 10, 2024

Modality-Aware Representation Learning for Zero-shot Sketch-based Image Retrieval
Eunyi Lyou, Doyeon Lee, Jooeun Kim, Joonseok Lee
Zero Shot Learning Cross Modal Retrieval Modality Invariant Sketch Photo Zero Shot Sketch Based Image

December 27, 2023

Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation
Zhuohang Dang, Minnan Luo, Chengyou Jia, Guang Dai, Xiaojun Chang, Jingdong Wang
Cross Modal Retrieval Error Mitigation Noisy Correspondence Noisy Correspondence Learning

December 26, 2023

Masked Contrastive Reconstruction for Cross-modal Medical Image-Report Retrieval
Zeqiang Wei, Kai Jin, Xiuzhuang Zhou
Contrastive Learning Cross Modal Retrieval Cross Modal Feature Modality Alignment Cross Modal Contrastive Learning Cross Modality Image Retrieval

December 14, 2023

WikiMuTe: A web-sourced dataset of semantic descriptions for music audio
Benno Weck, Holger Kirchhoff, Peter Grosche, Xavier Serra
Audio Representation Cross Modal Retrieval Semantic Description Music Information Retrieval Music Tagging

November 8, 2023

Weakly supervised cross-modal learning in high-content screening
Watkinson Gabriel, Cohen Ethan, Bourriez Nicolas, Bendidi Ihab, Bollot Guillaume, Genovesio Auguste
Cross Modal Molecular Representation Cross Modal Retrieval Cross Modal Representation Better Representation Leap Forward Early Screening

October 20, 2023

October 17, 2023

Balance Act: Mitigating Hubness in Cross-Modal Retrieval with Query and Gallery Banks
Yimu Wang, Xiangru Jian, Bo Xue
High Similarity Query Information Cross Modal Retrieval Retrieval Performance Face Act Hub Structure

September 29, 2023

Prototype-based Aleatoric Uncertainty Quantification for Cross-modal Retrieval
Hao Li, Jingkuan Song, Lianli Gao, Xiaosu Zhu, Heng Tao Shen
Cross Modal Retrieval Aleatoric Uncertainty Evidential Decision Theory

September 19, 2023

Sound Source Localization is All about Cross-Modal Alignment
Arda Senocak, Hyeonggon Ryu, Junsik Kim, Tae-Hyun Oh, Hanspeter Pfister, Joon Son Chung
Cross Modal Retrieval Cross Modal Alignment Sound Source Localization Multimodal Semantic

September 16, 2023

Contrastive Latent Space Reconstruction Learning for Audio-Text Retrieval
Kaiyi Luo, Xulong Zhang, Jianzong Wang, Huaxiong Li, Ning Cheng, Jing Xiao
Cross Modal Cross Modal Retrieval Audio Text Audio Text Retrieval

September 11, 2023

Dual-view Curricular Optimal Transport for Cross-lingual Cross-modal Retrieval
Yabing Wang, Shuhui Wang, Hao Luo, Jianfeng Dong, Fan Wang, Meng Han, Xun Wang, Meng Wang
Vision Language Optimal Transport Cross Lingual Transfer Cross Modal Retrieval Cross Lingual Cross Modal Retrieval

August 29, 2023

Cross-Modal Retrieval Meets Inference:Improving Zero-Shot Classification with Cross-Modal Retrieval
Seongha Eom, Namgyu Ho, Jaehoon Oh, Se-Young Yun
Zero Shot Classification Code Scientific Inference Contrastive Language Image Image Text Pair Cross Modal Retrieval Cross Modal Representation

August 24, 2023

Emotion-Aligned Contrastive Learning Between Images and Music
Shanti Stewart, Kleanthis Avramidis, Tiantian Feng, Shrikanth Narayanan
Contrastive Learning Cross Modal Retrieval Music Industry Music Tagging Contrastive Constraint

August 8, 2023

Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval
Yi Bin, Haoxuan Li, Yahui Xu, Xing Xu, Yang Yang, Heng Tao Shen
Transformer Megatron Decepticons Cross Modal Retrieval Hierarchical Transformer Image to Text Text to Image Retrieval Stream Encoder

July 14, 2023

PiTL: Cross-modal Retrieval with Weakly-supervised Vision-language Pre-training via Prompting
Zixin Guo, Tzu-Jui Julius Wang, Selen Pehlivan, Abduljalil Radman, Jorma Laaksonen
Vision Language Image Text Pair Weakly Supervised Cross Modal Retrieval Pre Trained Object

June 1, 2023

End-to-end Knowledge Retrieval with Multi-modal Queries
Man Luo, Zhiyuan Fang, Tejas Gokhale, Yezhou Yang, Chitta Baral
Cross Modal Retrieval Knowledge Retrieval Image Search Multimodal Query Multi Modal Query

May 31, 2023

Dense and Aligned Captions (DAC) Promote Compositional Reasoning in VL Models
Sivan Doveh, Assaf Arbelle, Sivan Harary, Roei Herzig, Donghyun Kim, Paola Cascante-bonilla, Amit Alfassy, Rameswar Panda, Raja Giryes, Rogerio Feris, Shimon Ullman, Leonid Karlinsky
Visual Question Answering Cross Modal Retrieval Compositional Reasoning Vision and Language Model

May 25, 2023

Multimodal Relation Extraction with Cross-Modal Retrieval and Synthesis
Xuming Hu, Zhijiang Guo, Zhiyang Teng, Irwin King, Philip S. Yu
Sentence Level Critical Synthesis Retrieval Augmented Cross Modal Retrieval Semantic Relation Sentence Image Pair