Video Text

Video text research focuses on bridging the semantic gap between visual and textual information in videos, aiming to improve tasks like video retrieval, generation, and understanding. Current efforts concentrate on developing sophisticated multimodal models, often leveraging transformer architectures and diffusion models, to effectively integrate textual descriptions with video content, including advancements in temporal modeling and data augmentation techniques. This field is significant for advancing artificial intelligence capabilities in multimedia analysis and generation, with applications ranging from improved search engines to more realistic video synthesis and editing tools.

Papers

July 11, 2023

EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone
Shraman Pramanick, Yale Song, Sayan Nag, Kevin Qinghong Lin, Hardik Shah, Mike Zheng Shou, Rama Chellappa, Pengchuan Zhang
Hybrid Fusion Egocentric Video Cross Modal Attention Video Text Video Language Pre Training Numerous Cutting Edge Backbone Egocentric Video Language

July 6, 2023

Text-Guided Synthesis of Eulerian Cinemagraphs
Aniruddha Mahapatra, Aliaksandr Siarohin, Hsin-Ying Lee, Sergey Tulyakov, Jun-Yan Zhu
Video Text Image Animation Text Driven Synthesis Artistic Practice

July 4, 2023

Transcribing Educational Videos Using Whisper: A preliminary study on using AI for transcribing educational videos
Ashwin Rao
Artificial Intelligence Automatic Speech Recognition Preliminary Study Video Text State of the Art Whisper Educational Video Speech Text Transcript

June 15, 2023

COSA: Concatenated Sample Pretrained Vision-Language Foundation Model
Sihan Chen, Xingjian He, Handong Li, Xiaojie Jin, Jiashi Feng, Jing Liu
Video Text Vision Language Foundation Model Video Text Task

May 22, 2023

VLAB: Enhancing Video Language Pre-training by Feature Adapting and Blending
Xingjian He, Sihan Chen, Fan Ma, Zhicheng Huang, Xiaojie Jin, Zikang Liu, Dongmei Fu, Yi Yang, Jing Liu, Jiashi Feng
Video Text Text Contrastive Learning Video Language Pre Training Feature Adaptation Blending Method Video Text Task

May 18, 2023

Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation
Wenjing Wang, Huan Yang, Zixi Tuo, Huiguo He, Junchen Zhu, Jianlong Fu, Jiaying Liu
Diffusion Model Video Generation Video Dataset Text to Video Generation Video Text Text Video Pair

May 5, 2023

FlowText: Synthesizing Realistic Scene Text Video with Optical Flow Estimation
Yuzhong Zhao, Weijia Wu, Zhuang Li, Jiahong Li, Weiqiang Wang
Optical Flow Video Text Scene Text Image Text to Video Synthesis

May 2, 2023

Scalable Mask Annotation for Video Text Spotting
Haibin He, Jing Zhang, Mengyang Xu, Juhua Liu, Bo Du, Dacheng Tao
Video Text Ground Truth Annotation Scene Text Image Mask Annotation Video Text Spotting

April 10, 2023

ICDAR 2023 Video Text Reading Competition for Dense and Small Text
Weijia Wu, Yuzhong Zhao, Zhuang Li, Jiahong Li, Mike Zheng Shou, Umapada Pal, Dimosthenis Karatzas, Xiang Bai
Competition Platform Video Text Short Text

April 5, 2023

VicTR: Video-conditioned Text Representations for Activity Recognition
Kumara Kahatapitiya, Anurag Arnab, Arsha Nagrani, Michael S. Ryoo
Vision Language Model Activity Recognition Video Text Visual Embeddings Contrastive Factor Analysis

April 4, 2023

Scalable and Accurate Self-supervised Multimodal Representation Learning without Aligned Video and Text Data
Vladislav Lialin, Stephen Rawls, David Chan, Shalini Ghosh, Anna Rumshisky, Wael Hamza
Potential Scalability Video Text Text Data Captioning Datasets Multimodal Self Supervised Learning Video Alignment

March 31, 2023

Video text tracking for dense and small text based on pp-yoloe-r and sort algorithm
Hongen Liu
Practical Algorithm Detection Model Text Detection Video Text Small Object Detection Short Text

March 30, 2023

Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models
Wen Wang, Yan Jiang, Kangyang Xie, Zide Liu, Hao Chen, Yue Cao, Xinlong Wang, Chunhua Shen
Zero Shot Text to Image Diffusion Model Video Text Image Diffusion Model

March 26, 2023

CelebV-Text: A Large-Scale Facial Text-Video Dataset
Jianhui Yu, Hao Zhu, Liming Jiang, Chen Change Loy, Weidong Cai, Wayne Wu
Video Generation Video Text

March 25, 2023

Video-Text as Game Players: Hierarchical Banzhaf Interaction for Cross-Modal Representation Learning
Peng Jin, Jinfa Huang, Pengfei Xiong, Shangxuan Tian, Chang Liu, Xiangyang Ji, Li Yuan, Jie Chen
Fine Grained Video Text Contrastive Vision Language Game Playing Agent Cross Modal Representation Learning Video Text Pair Hierarchical Interaction

March 9, 2023

Improving Video Retrieval by Adaptive Margin
Feng He, Qi Wang, Zhifan Feng, Wenbin Jiang, Yajuan Lv, Yong zhu, Xiao Tan
Video Text Video Retrieval Video Retrieval Model Adaptive Margin

January 19, 2023

MV-Adapter: Multimodal Video Transfer Learning for Video Text Retrieval
Xiaojie Jin, Bowen Zhang, Weibo Gong, Kai Xu, XueQing Deng, Peng Wang, Zhao Zhang, Xiaohui Shen, Jiashi Feng
Video Text Video Text Retrieval Text Video Retrieval Temporal Adaptation Modal Adapter SAM2 Adapter

December 9, 2022

VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners
Shen Yan, Tao Zhu, Zirui Wang, Yuan Cao, Mi Zhang, Soham Ghosh, Yonghui Wu, Jiahui Yu
Contrastive Learning Zero Shot Video Text Video Text Task Contrastive Captioners

December 8, 2022

Learning Video Representations from Large Language Models
Yue Zhao, Ishan Misra, Philipp Krähenbühl, Rohit Girdhar
Video Text Narrative Text Video Language Representation

December 7, 2022

SimVTP: Simple Video Text Pre-training with Masked Autoencoders
Yue Ma, Tianyu Yang, Yin Shan, Xiu Li
Cross Modal Masked Autoencoders Video Text Text Contrastive Learning