Video Text Retrieval

Video text retrieval (VTR) aims to find videos that best match given text queries, bridging the semantic gap between visual and textual data. Current research heavily utilizes pre-trained vision-language models like CLIP, focusing on improving efficiency through techniques such as prompt tuning and adapter modules, as well as enhancing accuracy via multi-scale feature learning, refined cross-modal alignment strategies (e.g., one-to-many alignment), and data-centric approaches like query expansion. VTR is crucial for applications like video search and recommendation, and ongoing research is improving both the speed and accuracy of these systems.

Papers

February 24, 2023

Deep Learning for Video-Text Retrieval: a Review
Cunjuan Zhu, Qi Jia, Wei Chen, Yanming Guo, Yu Liu
Deep Learning Narrative Review Video Text Retrieval Retrieval Task Spatial Temporal Video

February 19, 2023

Video-Text Retrieval by Supervised Sparse Multi-Grained Learning
Yimu Wang, Peng Shi
Video Text Retrieval Retrieval Benchmark Sparse Learning Shared Space

January 30, 2023

Tagging before Alignment: Integrating Multi-Modal Tags for Video-Text Retrieval
Yizhen Chen, Jie Wang, Lijian Lin, Zhongang Qi, Jin Ma, Ying Shan
Multi Modal Cross Modal Alignment Problem Video Text Retrieval Retrieval Benchmark Explicit in Document Tagging Text Video Retrieval Video Text Alignment

January 26, 2023

Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge Transferring
Ruyang Liu, Jingjia Huang, Ge Li, Jiashi Feng, Xinglong Wu, Thomas H. Li
Visual Representation Learning Video Recognition Video Text Retrieval Temporal Modeling CLIP Level Image to Video Transfer Learning

January 19, 2023

MV-Adapter: Multimodal Video Transfer Learning for Video Text Retrieval
Xiaojie Jin, Bowen Zhang, Weibo Gong, Kai Xu, XueQing Deng, Peng Wang, Zhao Zhang, Xiaohui Shen, Jiashi Feng
Video Text Video Text Retrieval Text Video Retrieval Temporal Adaptation Modal Adapter SAM2 Adapter

December 31, 2022

Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval?
Wenhao Wu, Haipeng Luo, Bo Fang, Jingdong Wang, Wanli Ouyang
Zero Shot Video Text Retrieval Retrieval Benchmark Text Video Retrieval Caption Pair Auxiliary Caption

December 2, 2022

Masked Contrastive Pre-Training for Efficient Video-Text Retrieval
Fangxun Shu, Biaolong Chen, Yue Liao, Shuwen Xiao, Wenyu Sun, Xiaobo Li, Yousong Zhu, Jinqiao Wang, Si Liu
Video Text Retrieval Contrastive Vision Language Video Language Text Video Retrieval Video Retrieval Datasets

November 30, 2022

Normalized Contrastive Learning for Text-Video Retrieval
Yookoon Park, Mahmoud Azab, Bo Xiong, Seungwhan Moon, Florian Metze, Gourab Kundu, Kirmani Ahmed
Contrastive Learning Multi Modal Cross Modal Retrieval Video Text Retrieval Multimodal Retrieval Cross Modal Contrastive Learning

November 17, 2022

Cross-Modal Adapter for Text-Video Retrieval
Haojun Jiang, Jianke Zhang, Rui Huang, Chunjiang Ge, Zanlin Ni, Jiwen Lu, Jie Zhou, Shiji Song, Gao Huang
Multi Task Video Text Retrieval Cross Modal Interaction Modal Adapter Video Retrieval Datasets

October 19, 2022

VTC: Improving Video-Text Retrieval with User Comments
Laura Hanu, James Thewlis, Yuki M. Asano, Christian Rupprecht
Multi Modal Audio Representation Video Text Retrieval Online Comment Multi Modal Representation

October 13, 2022

RaP: Redundancy-aware Video-language Pre-training for Text-Video Retrieval
Xing Wu, Chaochen Gao, Zijia Lin, Zhongyuan Wang, Jizhong Han, Songlin Hu
Information Redundancy Video Text Retrieval Video Language Pre Training Rap Music

October 10, 2022

Contrastive Video-Language Learning with Fine-grained Frame Sampling
Zixu Wang, Yujie Zhong, Yishu Miao, Lin Ma, Lucia Specia
Language Representation Video Text Retrieval Contrastive Vision Language Retrieval Benchmark Fine Grained Contrastive Learning

September 27, 2022

Text-Adaptive Multiple Visual Prototype Matching for Video-Text Retrieval
Chengzhi Lin, Ancong Wu, Junwei Liang, Jun Zhang, Wenhang Ge, Wei-Shi Zheng, Chunhua Shen
Cross Modal Retrieval Video Text Retrieval Video Retrieval Datasets Prototype Matching

August 16, 2022

M2HF: Multi-level Multi-modal Hybrid Fusion for Text-Video Retrieval
Shuo Liu, Weize Quan, Ming Zhou, Sihong Chen, Jian Kang, Zhe Zhao, Chen Chen, Dong-Ming Yan
Video Text Retrieval Multi Modal Feature Multimodal Chart Text Video Retrieval Multi Modal Alignment

August 8, 2022

Boosting Video-Text Retrieval with Explicit High-Level Semantics
Haoran Wang, Di Xu, Dongliang He, Fu Li, Zhong Ji, Jungong Han, Errui Ding
Video Text Retrieval Captioning Model Cross Modal Representation Text Video Retrieval Multi Modal Understanding Level Semantics

August 3, 2022

A Feature-space Multimodal Data Augmentation Technique for Text-video Retrieval
Alex Falcon, Giuseppe Serra, Oswald Lanz
Data Augmentation Technique Video Text Retrieval Text Video Retrieval Multimodal Data Augmentation Semantic Preservation

July 16, 2022

TS2-Net: Token Shift and Selection Transformer for Text-Video Retrieval
Yuqi Liu, Pengfei Xiong, Luhui Xu, Shengming Cao, Qin Jin
Video Text Retrieval Retrieval Benchmark Bidirectional Transformer Video Retrieval Model Fine Grained Video Representation Spatial Temporal Video

July 15, 2022

X-CLIP: End-to-End Multi-grained Contrastive Learning for Video-Text Retrieval
Yiwei Ma, Guohai Xu, Xiaoshuai Sun, Ming Yan, Ji Zhang, Rongrong Ji
Contrastive Learning Fine Grained End to End Video Text Retrieval Multi Grained Contrastive Grained Contrast

July 11, 2022

LaT: Latent Translation with Cycle-Consistency for Video-Text Retrieval
Jinbin Bai, Chunhui Liu, Feiyue Ni, Haofan Wang, Mengying Hu, Xiaofeng Guo, Lele Cheng
Video Text Retrieval Cycle Consistency Cross Modal Representation Learning Relative Coordinate Joint Latent Space

May 2, 2022

CenterCLIP: Token Clustering for Efficient Text-Video Retrieval
Shuai Zhao, Linchao Zhu, Xiaohan Wang, Yi Yang
Video Text Retrieval Text Video Retrieval Video Retrieval Model Video Token Token Clustering