Video Text Retrieval

Video text retrieval (VTR) aims to find videos that best match given text queries, bridging the semantic gap between visual and textual data. Current research heavily utilizes pre-trained vision-language models like CLIP, focusing on improving efficiency through techniques such as prompt tuning and adapter modules, as well as enhancing accuracy via multi-scale feature learning, refined cross-modal alignment strategies (e.g., one-to-many alignment), and data-centric approaches like query expansion. VTR is crucial for applications like video search and recommendation, and ongoing research is improving both the speed and accuracy of these systems.

Papers

February 26, 2024

Unifying Latent and Lexicon Representations for Effective Video-Text Retrieval
Haowei Liu, Yaya Shi, Haiyang Xu, Chunfeng Yuan, Qinghao Ye, Chenliang Li, Ming Yan, Ji Zhang, Fei Huang, Bing Li, Weiming Hu
Video Text Retrieval Text Video Retrieval Fine Grained Semantic Lexical Representation

February 4, 2024

Video Editing for Video Retrieval
Bin Zhu, Kevin Flanagan, Adriano Fragomeni, Michael Wray, Dima Damen
Video Editing Retrieval Model Video Text Retrieval Retrieval Benchmark Video Retrieval Video Retrieval Datasets

January 19, 2024

DGL: Dynamic Global-Local Prompt Tuning for Text-Video Retrieval
Xiangpeng Yang, Linchao Zhu, Xiaohan Wang, Yi Yang
Prompt Tuning Global Attention Video Text Retrieval Video Text Task

January 6, 2024

Text-Video Retrieval via Variational Multi-Modal Hypergraph Networks
Qian Li, Lixin Su, Jiashu Zhao, Long Xia, Hengyi Cai, Suqi Cheng, Hengzhu Tang, Junfeng Wang, Dawei Yin
Video Text Retrieval Text Video Retrieval Hypergraph Diffusion

December 15, 2023

WAVER: Writing-style Agnostic Text-Video Retrieval via Distilling Vision-Language Models Through Open-Vocabulary Knowledge
Huy Le, Tung Kieu, Anh Nguyen, Ngan Le
Vision Language Model Open Vocabulary Video Text Retrieval Multimodal Retrieval Text Video Retrieval Cross Domain Knowledge Distillation

December 10, 2023

Leveraging Generative Language Models for Weakly Supervised Sentence Component Analysis in Video-Language Joint Learning
Zaber Ibn Abdul Hakim, Najibul Haque Sarker, Rahul Pratap Singh, Bishmoy Paul, Ali Dabouei, Min Xu
Vision Language Generative Language Model Text to Video Video Text Retrieval Text to Video Retrieval Video Language Task Multimodal Video Understanding

November 14, 2023

Sinkhorn Transformations for Single-Query Postprocessing in Text-Video Retrieval
Konstantin Yakovlev, Gregory Polyakov, Ilseyar Alimova, Alexander Podolskiy, Andrey Bout, Sergey Nikolenko, Irina Piontkovskaya
Post Processing Video Text Retrieval Sinkhorn Algorithm Multimodal Retrieval Softmax Loss Video Retrieval Datasets

September 20, 2023

Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial Margin Contrastive Learning
Chen Jiang, Hong Liu, Xuzheng Yu, Qing Wang, Yuan Cheng, Jia Xu, Zhongyi Liu, Qingpei Guo, Wei Chu, Ming Yang, Yuan Qi
Contrastive Learning Video Representation Video Text Retrieval Text Video Pair Modal Similarity Video Retrieval Datasets

September 18, 2023

Unified Coarse-to-Fine Alignment for Video-Text Retrieval
Ziyang Wang, Yi-Lin Sung, Feng Cheng, Gedas Bertasius, Mohit Bansal
Video Text Retrieval Retrieval Benchmark Text to Video Retrieval Coarse to Fine Alignment

September 17, 2023

Towards Debiasing Frame Length Bias in Text-Video Retrieval via Causal Intervention
Burak Satar, Hongyuan Zhu, Hanwang Zhang, Joo Hwee Lim
Video Text Retrieval Causal Intervention Text Video Retrieval Length Bias Video Text Task Temporal Bias Object Co Occurrence

September 16, 2023

In-Style: Bridging Text and Uncurated Videos with Style Transfer for Text-Video Retrieval
Nina Shvetsova, Anna Kukleva, Bernt Schiele, Hilde Kuehne
Zero Shot Style Transfer Style Consistency Bridging Text Video Text Video Text Retrieval Video Retrieval Unlabeled Video

August 22, 2023

Multi-event Video-Text Retrieval
Gengyuan Zhang, Jisen Ren, Jindong Gu, Volker Tresp
Video Text Video Text Retrieval Text Video Retrieval Text Video Pair

August 15, 2023

Prompt Switch: Efficient CLIP Adaptation for Text-Video Retrieval
Chaorui Deng, Qi Chen, Pengda Qin, Da Chen, Qi Wu
Video Representation Video Text Retrieval Cross Video Frame Wise Representation CLIP Adaptation

August 2, 2023

TeachCLIP: Multi-Grained Teaching for Efficient Text-to-Video Retrieval
Kaibin Tian, Ruixiang Zhao, Hu Hu, Runquan Xie, Fengzong Lian, Zhanhui Kang, Xirong Li
Fine Grained Video Text Retrieval Text to Video Retrieval Grained Supervision

July 14, 2023

Fine-grained Text-Video Retrieval with Frozen Image Encoders
Zuozhuo Dai, Fangtao Shao, Qingkun Su, Zilong Dong, Siyu Zhu
Video Text Retrieval Text Video Retrieval Video Retrieval Datasets Fine Grained Retrieval Fine Grained Video Representation

June 20, 2023

MSVD-Indonesian: A Benchmark for Multimodal Video-Text Tasks in Indonesian
Willy Fitra Hendria
New Benchmark Vision Language Video Text Retrieval Video Text Task

June 7, 2023

An Overview of Challenges in Egocentric Text-Video Retrieval
Burak Satar, Hongyuan Zhu, Hanwang Zhang, Joo Hwee Lim
Technical Challenge Egocentric Video Topic Bias Video Text Retrieval Multiple Source Length Bias

May 20, 2023

Text-Video Retrieval with Disentangled Conceptualization and Set-to-Set Alignment
Peng Jin, Hao Li, Zesen Cheng, Jinfa Huang, Zhennan Wang, Li Yuan, Chang Liu, Jie Chen
Fine Grained Visual Concept Video Text Retrieval Set to Set

May 13, 2023

Mask to reconstruct: Cooperative Semantics Completion for Video-text Retrieval
Han Fang, Zhifei Yang, Xianghao Zang, Chao Ban, Hao Sun
Video Representation Video Text Retrieval Mask Frozen DETR Attention Masking Semantic Completion

April 18, 2023

SViTT: Temporal Learning of Sparse Video-Text Transformers
Yi Li, Kyle Min, Subarna Tripathi, Nuno Vasconcelos
Video Text Retrieval Temporal Learning Per Frame Video Text Model