Cross Modal Video Retrieval

Cross-modal video retrieval aims to find videos relevant to a given text query, bridging the gap between visual and textual information. Recent research emphasizes improving retrieval accuracy by incorporating multiple modalities (e.g., text, video, motion) and developing sophisticated models that leverage attention mechanisms and contrastive learning to better align these modalities. This focus includes optimizing feature extraction and fusion techniques, particularly within transformer-based architectures, and addressing issues like modality imbalance and partial relevance. Advances in this field have significant implications for applications such as video search engines, content recommendation systems, and assistive technologies for visually impaired individuals.

Papers

March 1, 2024

Tri-Modal Motion Retrieval by Learning a Joint Embedding Space
Kangning Yin, Shihao Zou, Yuxuan Ge, Zheng Tian
Deep Space Multi Modal Learning Joint Framework Text to Motion Motion Retrieval Motion Modality Cross Modal Video Retrieval

February 21, 2024

Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement
Danyang Hou, Liang Pang, Huawei Shen, Xueqi Cheng
Video Retrieval Moment Retrieval Pseudo Relevance Feedback Video Corpus Moment Retrieval Cross Modal Video Retrieval

May 5, 2023

A Large Cross-Modal Video Retrieval Dataset with Reading Comprehension
Weijia Wu, Yuzhong Zhao, Zhuang Li, Jiahong Li, Hong Zhou, Mike Zheng Shou, Xiang Bai
Reading Comprehension Video Retrieval Text Video Retrieval Cross Modal Video Retrieval

November 21, 2022

Are All Combinations Equal? Combining Textual and Visual Features with Multiple Space Learning for Text-Based Video Retrieval
Damianos Galanopoulos, Vasileios Mezaris
Text Modality Visual Feature Joint Representation Text Video Retrieval Text to Video Retrieval Linear Combination Video Text Pair Cross Modal Video Retrieval

October 16, 2022

Efficient Cross-Modal Video Retrieval with Meta-Optimized Frames
Ning Han, Xun Yang, Ee-Peng Lim, Hao Chen, Qianru Sun
Visual Transformer Video Retrieval Model Cross Modal Video Retrieval

October 9, 2022

ConTra: (Con)text (Tra)nsformer for Cross-Modal Video Retrieval
Adriano Fragomeni, Michael Wray, Dima Damen
Single CLIP Cross Modal Retrieval Context Transformer Cross Modal Video Retrieval

April 18, 2022

Modality-Balanced Embedding for Video Retrieval
Xun Wang, Bingqing Ke, Xuanping Li, Fangyu Liu, Mingyu Zhang, Xiao Liang, Qiushi Xiao, Cheng Luo, Yue Yu
Video Retrieval Bi Encoder Video Search Modality Bias Cross Modal Video Retrieval

March 16, 2022

Learning video retrieval models with relevance-aware online mining
Alex Falcon, Giuseppe Serra, Oswald Lanz
Data Mining Video Text Relevance Aware Video Retrieval Model Cross Modal Video Retrieval