Video Text

Video text research focuses on bridging the semantic gap between visual and textual information in videos, aiming to improve tasks like video retrieval, generation, and understanding. Current efforts concentrate on developing sophisticated multimodal models, often leveraging transformer architectures and diffusion models, to effectively integrate textual descriptions with video content, including advancements in temporal modeling and data augmentation techniques. This field is significant for advancing artificial intelligence capabilities in multimedia analysis and generation, with applications ranging from improved search engines to more realistic video synthesis and editing tools.

Papers

May 7, 2024

April 9, 2024

Improving Interpretable Embeddings for Ad-hoc Video Search with Generative Captions and Multi-word Concept Bank
Jiaxin Wu, Chong-Wah Ngo, Wing-Kwong Chan
Latent Space Video Text Caption Generation Large Vocabulary Interpretable Embeddings Video Search

April 7, 2024

HaVTR: Improving Video-Text Retrieval Through Augmentation Using Large Foundation Models
Yimu Wang, Shuai Yuan, Xiangru Jian, Wei Pang, Mushi Wang, Ning Yu
Generative Model Foundation Model Soft Augmentation Video Text Video Text Retrieval Retrieval Benchmark Text Video Retrieval

March 15, 2024

HawkEye: Training Video-Text LLMs for Grounding Text in Videos
Yueqian Wang, Xiaojun Meng, Jianxin Liang, Yuxuan Wang, Qun Liu, Dongyan Zhao
Large Language Model Gameplay Video Video Text Video LLM Video Text Task Tool Grounding

February 29, 2024

Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers
Tsai-Shien Chen, Aliaksandr Siarohin, Willi Menapace, Ekaterina Deyneka, Hsiang-wei Chao, Byung Eun Jeon, Yuwei Fang, Hsin-Ying Lee, Jian Ren, Ming-Hsuan Yang, Sergey Tulyakov
Video Dataset Generated Caption Video Text High Quality Caption Multimodal Teacher

February 27, 2024

From Text Segmentation to Smart Chaptering: A Novel Benchmark for Structuring Video Transcriptions
Fabian Retkowski, Alexander Waibel
Natural Language Processing Unstructured Text Video Text Novel Benchmark Text Segmentation Hierarchical Segmentation Text Segment Chapter to Chapter

January 31, 2024

M2-RAAP: A Multi-Modal Recipe for Advancing Adaptation-based Pre-training towards Effective and Efficient Zero-shot Video-text Retrieval
Xingning Dong, Zipeng Feng, Chunluan Zhou, Xuzheng Yu, Ming Yang, Qingpei Guo
Zero Shot Video Text Video Text Pre Training Video Text Pair

January 13, 2024

GoMatching: A Simple Baseline for Video Text Spotting via Long and Short Term Matching
Haibin He, Maoyuan Ye, Jing Zhang, Juhua Liu, Bo Du, Dacheng Tao
Video Text Long Span Text Spotting Video Text Spotting

January 1, 2024

COSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training
Alex Jinpeng Wang, Linjie Li, Kevin Qinghong Lin, Jianfeng Wang, Kevin Lin, Zhengyuan Yang, Lijuan Wang, Mike Zheng Shou
Contrastive Learning Contrastive Loss Video Text Video Text Task Interleaved Learning Autoregressive Vision Language Model

December 21, 2023

VideoPoet: A Large Language Model for Zero-Shot Video Generation
Dan Kondratyuk, Lijun Yu, Xiuye Gu, José Lezama, Jonathan Huang, Grant Schindler, Rachel Hornung, Vighnesh Birodkar, Jimmy Yan, Ming-Chang Chiu, Krishna Somandepalli, Hassan Akbari, Yair Alon, Yong Cheng, Josh Dillon, Agrim Gupta, Meera Hahn, Anja Hauth, David Hendon, Alonso Martinez, David Minnen, Mikhail Sirotenko, Kihyuk Sohn, Xuan Yang, Hartwig Adam, Ming-Hsuan Yang, Irfan Essa, Huisheng Wang, David A. Ross, Bryan Seybold, Lu Jiang
Large Language Model Zero Shot Multimodal Input Video Text Video Generation Task Generative Multimodal Model

December 18, 2023

November 29, 2023

DSText V2: A Comprehensive Video Text Spotting Dataset for Dense and Small Text
Weijia Wu, Yiming Zhang, Yefei He, Luoming Zhang, Zhenyu Lou, Hong Zhou, Xiang Bai
Data Set Audio Visual Video Text Short Text Dense Video Vec2text Model

November 27, 2023

Efficient Pre-training for Localized Instruction Generation of Videos
Anil Batra, Davide Moltisanti, Laura Sevilla-Lara, Marcus Rohrbach, Frank Keller
High Efficiency Gameplay Video Human Instruction Video Text Instruction Generation Procedural Video

November 25, 2023

Mug-STAN: Adapting Image-Language Pretrained Models for General Video Understanding
Ruyang Liu, Jingjia Huang, Wei Gao, Thomas H. Li, Ge Li
Video Understanding Video Text Video Text Pre Training Image Language

November 21, 2023

GPT4Motion: Scripting Physical Motions in Text-to-Video Generation via Blender-Oriented GPT Planning
Jiaxi Lv, Yi Huang, Mingfu Yan, Jiancheng Huang, Jianzhuang Liu, Yifan Liu, Yafei Wen, Xiaoxin Chen, Shifeng Chen
Text to Image Diffusion Model Human Motion Text to Video Generation Video Text Video Synthesis Spatial Coherence

October 18, 2023

VKIE: The Application of Key Information Extraction on Video Text
Siyu An, Ye Liu, Haoyuan Peng, Di Yin
Application Proficiency Multimodal Information Feature Representation Video Text Key Information Extraction Structured Information Visual Text Hierarchical Information

October 9, 2023

FLATTEN: optical FLow-guided ATTENtion for consistent text-to-video editing
Yuren Cong, Mengmeng Xu, Christian Simon, Shoufa Chen, Jiawei Ren, Yanping Xie, Juan-Manuel Perez-Rua, Bodo Rosenhahn, Tao Xiang, Sen He
Text to Image Diffusion Model Optical Flow Human Attention Video Editing Video Text Document Flattening Diffusion Based Video Editing

September 16, 2023

In-Style: Bridging Text and Uncurated Videos with Style Transfer for Text-Video Retrieval
Nina Shvetsova, Anna Kukleva, Bernt Schiele, Hilde Kuehne
Zero Shot Style Transfer Style Consistency Bridging Text Video Text Video Text Retrieval Video Retrieval Unlabeled Video

Video Text

Papers

TALC: Time-Aligned Captions for Multi-Scene Text-to-Video Generation

Video-of-Thought: Step-by-Step Video Reasoning from Perception to Cognition

Improving Interpretable Embeddings for Ad-hoc Video Search with Generative Captions and Multi-word Concept Bank

HaVTR: Improving Video-Text Retrieval Through Augmentation Using Large Foundation Models

HawkEye: Training Video-Text LLMs for Grounding Text in Videos

Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers

From Text Segmentation to Smart Chaptering: A Novel Benchmark for Structuring Video Transcriptions

M2-RAAP: A Multi-Modal Recipe for Advancing Adaptation-based Pre-training towards Effective and Efficient Zero-shot Video-text Retrieval

GoMatching: A Simple Baseline for Video Text Spotting via Long and Short Term Matching

COSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training

VideoPoet: A Large Language Model for Zero-Shot Video Generation

Realistic Human Motion Generation with Cross-Diffusion Models

Towards Detailed Text-to-Motion Synthesis via Basic-to-Advanced Hierarchical Diffusion Model

DSText V2: A Comprehensive Video Text Spotting Dataset for Dense and Small Text

Efficient Pre-training for Localized Instruction Generation of Videos

Mug-STAN: Adapting Image-Language Pretrained Models for General Video Understanding

GPT4Motion: Scripting Physical Motions in Text-to-Video Generation via Blender-Oriented GPT Planning

VKIE: The Application of Key Information Extraction on Video Text

FLATTEN: optical FLow-guided ATTENtion for consistent text-to-video editing

In-Style: Bridging Text and Uncurated Videos with Style Transfer for Text-Video Retrieval