Text to Video Retrieval

Text-to-video retrieval (TVR) aims to efficiently locate videos matching a given textual description, a crucial task for various applications. Current research heavily focuses on improving the alignment of visual and textual representations, often employing transformer-based architectures and leveraging pre-trained models like CLIP, exploring multi-granularity features (e.g., sentence-level and word-level text, frame-level and segment-level video), and incorporating audio information to enhance retrieval accuracy. Advances in TVR are significant for improving search capabilities in large video datasets and powering applications like video recommendation systems and content-based video indexing.

Papers

May 11, 2022

Learning to Retrieve Videos by Asking Questions
Avinash Madasu, Junier Oliva, Gedas Bertasius
LeArning Abstract Yes No Question Video Retrieval Text to Video Retrieval Video Retrieval Model

April 26, 2022

MILES: Visual BERT Pre-training with Injected Language Semantics for Video-text Retrieval
Yuying Ge, Yixiao Ge, Xihui Liu, Alex Jinpeng Wang, Jianping Wu, Ying Shan, Xiaohu Qie, Ping Luo
Ticket BERT Video Text Retrieval Masked Modeling Code Semantics Text to Video Retrieval Video Text Pre Training

April 15, 2022

COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval
Haoyu Lu, Nanyi Fei, Yuqi Huo, Yizhao Gao, Zhiwu Lu, Ji-Rong Wen
Vision Language Cross Modal Retrieval Text to Image Retrieval Text to Video Retrieval BED Turnaround Time

April 6, 2022

ECLIPSE: Efficient Long-range Video Retrieval using Sight and Sound
Yan-Bo Lin, Jie Lei, Mohit Bansal, Gedas Bertasius
Long Range Sound Design Plain Sight Text to Video Retrieval Long Video Retrieval

March 24, 2022

FitCLIP: Refining Large-Scale Pretrained Image-Text Models for Zero-Shot Video Understanding Tasks
Santiago Castro, Fabian Caba Heilbron
Zero Shot Action Recognition Zero Shot Action Recognition Text to Video Retrieval Image Text Model Refining Method

January 23, 2022

Reading-strategy Inspired Visual Representation Learning for Text-to-Video Retrieval
Jianfeng Dong, Yabing Wang, Xianke Chen, Xiaoye Qu, Xirong Li, Yuan He, Xun Wang
Visual Representation Learning Video Representation Learning Text to Video Retrieval Cross Modal Representation Learning Video Feature

January 13, 2022

Bridging Video-text Retrieval with Multiple Choice Questions
Yuying Ge, Yixiao Ge, Xihui Liu, Dian Li, Ying Shan, Xiaohu Qie, Ping Luo
Video Text Multiple Choice Video Text Retrieval Text to Video Retrieval Fine Grained Video

December 3, 2021

Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval
Fan Hu, Aozhu Chen, Ziyue Wang, Fangming Zhou, Jianfeng Dong, Xirong Li
Feature Fusion Multi Head Self Attention Text to Video Retrieval New Baseline Trec Video Retrieval Evaluation

Text to Video Retrieval

Papers

Learning to Retrieve Videos by Asking Questions

MILES: Visual BERT Pre-training with Injected Language Semantics for Video-text Retrieval

COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

ECLIPSE: Efficient Long-range Video Retrieval using Sight and Sound

FitCLIP: Refining Large-Scale Pretrained Image-Text Models for Zero-Shot Video Understanding Tasks

Reading-strategy Inspired Visual Representation Learning for Text-to-Video Retrieval

Bridging Video-text Retrieval with Multiple Choice Questions

Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval