Cross Lingual Cross Modal Retrieval

Cross-lingual cross-modal retrieval (CCR) aims to retrieve images or videos relevant to text queries in multiple languages, a crucial step towards truly multilingual information access. Current research focuses on improving the alignment of visual and textual representations, often leveraging large language models (LLMs) and contrastive learning techniques to overcome the challenges posed by noisy translations and the inherent semantic gap between modalities. These advancements are driven by the need for robust and efficient multilingual search and information retrieval systems, impacting fields like web search, multimedia indexing, and cross-cultural communication.

Papers

December 18, 2024

Dynamic Adapter with Semantics Disentangling for Cross-lingual Cross-modal Retrieval
Rui Cai, Zhiyu Dong, Jianfeng Dong, Xun Wang
Vision Language Cross Modal Retrieval Conditional Adapter Cross Lingual Cross Modal Retrieval

September 30, 2024

Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval
Yabing Wang, Le Wang, Qiang Zhou, Zhibin Wang, Hao Li, Gang Hua, Wei Tang
Cross Modal Multimodal Data Multimodal LLM Multilingual Representation Cross Lingual Cross Modal Retrieval

June 26, 2024

Improving the Consistency in Cross-Lingual Cross-Modal Retrieval with 1-to-K Contrastive Learning
Zhijie Nie, Richong Zhang, Zhangchi Feng, Hailang Huang, Xudong Liu
Contrastive Learning Multi Modal Cross Modal Strong Consistency Cross Lingual Multilingual Scenario Cross Lingual Cross Modal Retrieval

December 14, 2023

CL2CM: Improving Cross-Lingual Cross-Modal Retrieval via Cross-Lingual Knowledge Transfer
Yabing Wang, Fan Wang, Jianfeng Dong, Hao Luo
Cross Lingual Transfer Cross Lingual Knowledge Transfer Cross Lingual Cross Modal Retrieval

October 13, 2023

PaLI-3 Vision Language Models: Smaller, Faster, Stronger
Xi Chen, Xiao Wang, Lucas Beyer, Alexander Kolesnikov, Jialin Wu, Paul Voigtlaender, Basil Mustafa, Sebastian Goodman, Ibrahim Alabdulmohsin, Piotr Padlewski, Daniel Salz, Xi Xiong, Daniel Vlasic, Filip Pavetic, Keran Rong, Tianli Yu, Daniel Keysers, Xiaohua Zhai, Radu Soricut
Vision Transformer Multimodal Benchmark Image Encoder Faster Pace Cross Lingual Cross Modal Retrieval

September 11, 2023

Dual-view Curricular Optimal Transport for Cross-lingual Cross-modal Retrieval
Yabing Wang, Shuhui Wang, Hao Luo, Jianfeng Dong, Fan Wang, Meng Han, Xun Wang, Meng Wang
Vision Language Optimal Transport Cross Lingual Transfer Cross Modal Retrieval Cross Lingual Cross Modal Retrieval

August 26, 2022

Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning
Yabing Wang, Jianfeng Dong, Tianxiang Liang, Minsong Zhang, Rui Cai, Xun Wang
Cross Modal Retrieval Cross Attention Module Noise Robust Learning Cross Modal Retrieval Benchmark Cross Lingual Cross Modal Retrieval