Text Video Pair

Text-video pair research focuses on aligning textual descriptions with video content, aiming to improve various applications like video retrieval, question answering, and generation. Current research emphasizes developing robust models that handle diverse video styles and complex interactions, often employing transformer-based architectures, contrastive learning, and diffusion models to achieve better cross-modal alignment and efficient retrieval. This field is significant due to its potential to enhance video search, content creation, and understanding, impacting both scientific understanding of multimodal learning and practical applications in media and information retrieval.

Papers

December 20, 2024

CustomTTT: Motion and Appearance Customized Video Generation via Test-Time Training
Xiuli Bi, Jian Lu, Bo Liu, Xiaodong Cun, Yong Zhang, Weisheng Li, Bin Xiao
Video Generation Motion Information Text to Video Test Time Training Text Video Pair High Fidelity Video Motion Customization

December 19, 2024

Prompt-A-Video: Prompt Your Video Diffusion Model via Preference-Aligned LLM
Yatai Ji, Jiacheng Zhang, Jie Wu, Shilong Zhang, Shoufa Chen, Chongjian GE, Peize Sun, Weifeng Chen, Wenqi Shao, Xuefeng Xiao, Weilin Huang, Ping Luo
Medical LLM Video Diffusion Model Style PROMPT Visual Prompt Text to Video Text Video Pair Prompt Evolution

December 3, 2024

OmniCreator: Self-Supervised Unified Generation with Universal Editing
Haodong Chen, Lan Wang, Harry Yang, Ser-Nam Lim
Generation Model Text Video Pair Sequential Editing Video Based Generative Task

September 17, 2024

BoViLA: Bootstrapping Video-Language Alignment via LLM-Based Self-Questioning and Answering
Jin Chen, Kaijing Ma, Haojian Huang, Jiayu Shen, Han Fang, Xianghao Zang, Chao Ban, Zhongjiang He, Hao Sun, Yanmei Kang
Multi Modal Model LLM Reasoning Multiple Choice VideoQA Modality Alignment Text Video Pair VideoQA Benchmark

August 29, 2024

One-Shot Learning Meets Depth Diffusion in Multi-Object Videos
Anisha Jain
Video Generation Depth Network Multi Object Pre Trained Text to Image Text Video Pair Depth to Image Diffusion

August 5, 2024

VidGen-1M: A Large-Scale Dataset for Text-to-video Generation
Zhiyu Tan, Xiaomeng Yang, Luozheng Qin, Hao Li
Faithful Generation Large Scale Dataset Text to Video Video Generation Model Automatic Curation Text Video Pair

July 16, 2024

Video-Language Alignment via Spatio-Temporal Graph Transformer
Shi-Xue Zhang, Hongfa Wang, Xiaobin Zhu, Weibo Gu, Tianjin Zhang, Chun Yang, Wei Liu, Xu-Cheng Yin
Graph Transformer Text Video Pair Video Text Alignment Video Language Alignment

July 4, 2024

MAMA: Meta-optimized Angular Margin Contrastive Framework for Video-Language Representation Learning
Thong Nguyen, Yi Bin, Xiaobao Wu, Xinshuai Dong, Zhiyuan Hu, Khoi Le, Cong-Duy Nguyen, See-Kiong Ng, Luu Anh Tuan
Video Text Cross Modal Representation Text Video Pair Video Language Representation Angular Margin Contrastive

July 2, 2024

OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation
Kepan Nan, Rui Xie, Penghao Zhou, Tiehan Fan, Zhenheng Yang, Zhijie Chen, Xiang Li, Jian Yang, Ying Tai
Faithful Generation Video Generation Text Video Pair Video Text Pair

June 4, 2024

Contrastive Language Video Time Pre-training
Hengyue Liu, Kyle Min, Hector A. Valdez, Subarna Tripathi
Contrastive Learning Video Understanding Contrastive Vision Language Temporal Embeddings Text Video Pair Temporal Representation

May 21, 2024

Text-Video Retrieval with Global-Local Semantic Consistent Learning
Haonan Zhang, Pengpeng Zeng, Lianli Gao, Jingkuan Song, Yihang Duan, Xinyu Lyu, Hengtao Shen
Fine Grained Video Text Retrieval Semantic Alignment Text Video Pair

March 26, 2024

Text Is MASS: Modeling as Stochastic Embedding for Text-Video Retrieval
Jiamian Wang, Guohao Sun, Pichao Wang, Dongfang Liu, Sohail Dianat, Majid Rabbani, Raghuveer Rao, Zhiqiang Tao
Text Modality Stochastic Way Text Embeddings Video Text Retrieval Text Video Pair Tandem Mass

January 24, 2024

Generative Video Diffusion for Unseen Cross-Domain Video Moment Retrieval
Dezhao Luo, Shaogang Gong, Jiabo Huang, Hailin Jin, Yang Liu
Video Diffusion Model Video Moment Retrieval Text Video Pair

January 12, 2024

360DVD: Controllable Panorama Video Generation with 360-Degree Video Diffusion Model
Qian Wang, Weiqi Li, Chong Mou, Xinhua Cheng, Jian Zhang
Video Diffusion Model Panorama Generation Text Video Pair Panoramic Video

November 7, 2023

I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion Models
Shiwei Zhang, Jiayu Wang, Yingya Zhang, Kang Zhao, Hangjie Yuan, Zhiwu Qin, Xiang Wang, Deli Zhao, Jingren Zhou
High Quality Critical Synthesis Video Synthesis Generated Video Text Video Pair Video Text Alignment

October 7, 2023

Analyzing Zero-Shot Abilities of Vision-Language Models on Video Understanding Tasks
Avinash Madasu, Anahita Bhiwandiwalla, Vasudev Lal
Vision Language Model Critique Ability Image Text Video Understanding Task Text Video Pair Video Text Model

September 26, 2023

LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models
Yaohui Wang, Xinyuan Chen, Xin Ma, Shangchen Zhou, Ziqi Huang, Yi Wang, Ceyuan Yang, Yinan He, Jiashuo Yu, Peiqing Yang, Yuwei Guo, Tianxing Wu, Chenyang Si, Yuming Jiang, Cunjian Chen, Chen Change Loy, Bo Dai, Dahua Lin, Yu Qiao, Ziwei Liu
Video Generation Video Diffusion Model Text Video Pair

September 20, 2023

Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial Margin Contrastive Learning
Chen Jiang, Hong Liu, Xuzheng Yu, Qing Wang, Yuan Cheng, Jia Xu, Zhongyi Liu, Qingpei Guo, Wei Chu, Ming Yang, Yuan Qi
Contrastive Learning Video Representation Video Text Retrieval Text Video Pair Modal Similarity Video Retrieval Datasets

August 22, 2023

Multi-event Video-Text Retrieval
Gengyuan Zhang, Jisen Ren, Jindong Gu, Volker Tresp
Video Text Video Text Retrieval Text Video Retrieval Text Video Pair

May 30, 2023

SAVE: Spectral-Shift-Aware Adaptation of Image Diffusion Models for Text-driven Video Editing
Nazmul Karim, Umar Khalid, Mohsen Joneidi, Chen Chen, Nazanin Rahnavard
Video Editing Speech to Text Image Diffusion Model Text Video Pair Spectral Regularization Search With Amortized Value Estimates"Spectral Translation