Video Text

Video text research focuses on bridging the semantic gap between visual and textual information in videos, aiming to improve tasks like video retrieval, generation, and understanding. Current efforts concentrate on developing sophisticated multimodal models, often leveraging transformer architectures and diffusion models, to effectively integrate textual descriptions with video content, including advancements in temporal modeling and data augmentation techniques. This field is significant for advancing artificial intelligence capabilities in multimedia analysis and generation, with applications ranging from improved search engines to more realistic video synthesis and editing tools.

Papers

December 7, 2022

SimVTP: Simple Video Text Pre-training with Masked Autoencoders
Yue Ma, Tianyu Yang, Yin Shan, Xiu Li
Cross Modal Masked Autoencoders Video Text Text Contrastive Learning

October 5, 2022

Phenaki: Variable Length Video Generation From Open Domain Textual Description
Ruben Villegas, Mohammad Babaeizadeh, Pieter-Jan Kindermans, Hernan Moraldo, Han Zhang, Mohammad Taghi Saffar, Santiago Castro, Julius Kunze, Dumitru Erhan
Video Generation Video Representation Video Text Video Token

September 29, 2022

Make-A-Video: Text-to-Video Generation without Text-Video Data
Uriel Singer, Adam Polyak, Thomas Hayes, Xi Yin, Jie An, Songyang Zhang, Qiyuan Hu, Harry Yang, Oron Ashual, Oran Gafni, Devi Parikh, Sonal Gupta, Yaniv Taigman
Text to Video Text to Video Generation Video Text

July 21, 2022

LocVTP: Video-Text Pre-training for Temporal Localization
Meng Cao, Tianyu Yang, Junwu Weng, Can Zhang, Jue Wang, Yuexian Zou
Fine Grained Contrastive Loss Video Text Temporal Localization Video Text Pre Training Robust Correspondence Natural Language Video Localization

July 18, 2022

June 6, 2022

Contrastive Graph Multimodal Model for Text Classification in Videos
Ye Liu, Changchong Lu, Chen Lin, Di Yin, Bo Ren
Text Classification Gameplay Video Text Recognition Video Text

June 5, 2022

E^2VTS: Energy-Efficient Video Text Spotting from Unmanned Aerial Vehicles
Zhenyu Hu, Zhenyu Wu, Pengcheng Pi, Yunhe Xue, Jiayi Shen, Jianchao Tan, Xiangru Lian, Zhangyang Wang, Ji Liu
Unmanned Aerial Vehicle Text to Video Video Text Video Text Spotting

June 3, 2022

Egocentric Video-Language Pretraining
Kevin Qinghong Lin, Alex Jinpeng Wang, Mattia Soldan, Michael Wray, Rui Yan, Eric Zhongcong Xu, Difei Gao, Rongcheng Tu, Wenzhe Zhao, Weijie Kong, Chengfei Cai, Hongfa Wang, Dima Damen, Bernard Ghanem, Wei Liu, Mike Zheng Shou
Egocentric Video Video Text Egocentric Perception Egocentric View Video Language Pre Training Video Text Pre Training

May 29, 2022

CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers
Wenyi Hong, Ming Ding, Wendi Zheng, Xinghan Liu, Jie Tang
Transformer Megatron Decepticons Video Generation Text to Video Generation Video Text Large Scale Pretraining Hierarchical Training

March 31, 2022

Video-Text Representation Learning via Differentiable Weak Temporal Alignment
Dohwan Ko, Joonmyung Choi, Juyeon Ko, Shinyeong Noh, Kyoung-Woon On, Eun-Sol Kim, Hyunwoo J. Kim
Video Text Temporal Alignment Joint Embedding Contrastive Alignment

March 20, 2022

End-to-End Video Text Spotting with Transformer
Weijia Wu, Yuanqiang Cai, Chunhua Shen, Debing Zhang, Ying Fu, Hong Zhou, Ping Luo
Transformer Based Video Text Text DEtection

March 16, 2022

Learning video retrieval models with relevance-aware online mining
Alex Falcon, Giuseppe Serra, Oswald Lanz
Data Mining Video Text Relevance Aware Video Retrieval Model Cross Modal Video Retrieval

January 13, 2022

Bridging Video-text Retrieval with Multiple Choice Questions
Yuying Ge, Yixiao Ge, Xihui Liu, Dian Li, Ying Shan, Xiaohu Qie, Ping Luo
Video Text Multiple Choice Video Text Retrieval Text to Video Retrieval Fine Grained Video

December 30, 2021

Contrastive Learning of Semantic and Visual Representations for Text Tracking
Zhuang Li, Weijia Wu, Mike Zheng Shou, Jiahong Li, Size Li, Zhongyuan Wang, Hong Zhou
Contrastive Learning Visual Representation Web Tracking Semantic Description Video Text

December 13, 2021

VL-Adapter: Parameter-Efficient Transfer Learning for Vision-and-Language Tasks
Yi-Lin Sung, Jaemin Cho, Mohit Bansal
Language Model Vision Language Task Video Text Parameter Efficient Transfer Learning Video Text Task SAM2 Adapter Parameter Efficient Adapter Image to Text Task

December 11, 2021

Overview of The MediaEval 2021 Predicting Media Memorability Task
Rukiye Savran Kiziltepe, Mihai Gabriel Constantin, Claire-Helene Demarty, Graham Healy, Camilo Fosco, Alba Garcia Seco de Herrera, Sebastian Halder, Bogdan Ionescu, Ana Matran-Fernandez, Alan F. Smeaton, Lorin Sweeney
Video Text Byzantine Seal Video Memorability Medium Memorability

December 9, 2021

A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer
Weijia Wu, Yuanqiang Cai, Debing Zhang, Sibo Wang, Zhuang Li, Jiahong Li, Yejun Tang, Hong Zhou
Transformer Based Video Text

December 2, 2021

Video-Text Pre-training with Learned Regions
Rui Yan, Mike Zheng Shou, Yixiao Ge, Alex Jinpeng Wang, Xudong Lin, Guanyu Cai, Jinhui Tang
Video Text Retrieval Benchmark Semantic Region Video Text Pre Training Video Text Pair Learnable Region

November 19, 2021

Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions
Hongwei Xue, Tiankai Hang, Yanhong Zeng, Yuchong Sun, Bei Liu, Huan Yang, Jianlong Fu, Baining Guo
Zero Shot Cross Modal Multimodal Transformer Video Text Video Language High Resolution Video Video Language Representation