Text to Video

Text-to-video (T2V) generation aims to create realistic videos from textual descriptions, focusing on improving temporal consistency, handling multiple objects and actions, and enhancing controllability. Current research heavily utilizes diffusion models, often building upon pre-trained text-to-image models and incorporating advanced architectures like Diffusion Transformers (DiT) and spatial-temporal attention mechanisms to improve video quality and coherence. This rapidly evolving field holds significant implications for content creation, education, and various other applications, driving advancements in both model architectures and evaluation methodologies to address challenges like hallucination and compositional generation.

Papers

June 5, 2024

Searching Priors Makes Text-to-Video Synthesis Better
Haoran Cheng, Liang Peng, Linxuan Xia, Yuepeng Hu, Hengjia Li, Qinglin Lu, Xiaofei He, Boxi Wu
Video Diffusion Model Text to Video Real World Video Generated Video Model Based Prior T2V Generation Text to Video Synthesis

May 30, 2024

Analysing the Public Discourse around OpenAI's Text-To-Video Model 'Sora' using Topic Modeling
Vatsal Vinay Parikh
Topic Modeling Text to Video OpenAI Codex Latent Dirichlet Allocation Public Discourse Discourse Analysis

May 29, 2024

T2V-Turbo: Breaking the Quality Bottleneck of Video Consistency Model with Mixed Reward Feedback
Jiachen Li, Weixi Feng, Tsu-Jui Fu, Xinyi Wang, Sugato Basu, Wenhu Chen, William Yang Wang
Pre Trained Text to Video Major Challenge Bottleneck Consistency Distillation Video Consistency

May 28, 2024

RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives
Jaehong Yoon, Shoubin Yu, Mohit Bansal
Text to Video Active Removal Video Customization

May 22, 2024

Text Prompting for Multi-Concept Video Customization by Autoregressive Generation
Divya Kothandaraman, Kihyuk Sohn, Ruben Villegas, Paul Voigtlaender, Dinesh Manocha, Mohammad Babaeizadeh
Text to Video Autoregressive Generation Image Manifold Multi Concept Customization Video Customization

May 21, 2024

DisenStudio: Customized Multi-subject Text-to-Video Generation with Disentangled Spatial Control
Hong Chen, Xin Wang, Yipeng Zhang, Yuwei Zhou, Zeyang Zhang, Siao Tang, Wenwu Zhu
Cross Attention Text to Video Text to Video Diffusion Model Subject Driven Generation

May 7, 2024

April 25, 2024

TI2V-Zero: Zero-Shot Image Conditioning for Text-to-Video Diffusion Models
Haomiao Ni, Bernhard Egger, Suhas Lohit, Anoop Cherian, Ye Wang, Toshiaki Koike-Akino, Sharon X. Huang, Tim K. Marks
Video Generation Text to Video Text to Video Diffusion Model Image Conditioning Image to Video Generation T2V Generation

April 21, 2024

Exploring AIGC Video Quality: A Focus on Visual Harmony, Video-Text Consistency and Domain Distribution Gap
Bowen Qu, Xiaoyu Liang, Shangkun Sun, Wei Gao
Generated Content Text to Video Human Driving Focus Domain Gap Text to Video Generation Consistent Video Ai Generated Image Quality Assessment Color Harmony

April 18, 2024

April 17, 2024

Dynamic Typography: Bringing Text to Life via Video Diffusion Prior
Zichen Liu, Yihao Meng, Hao Ouyang, Yue Yu, Bolin Zhao, Daniel Cohen-Or, Huamin Qu
Text Modality Text to Video Real Image Animation Video Diffusion Kinetic Typography

April 10, 2024

"Sora is Incredible and Scary": Emerging Governance Challenges of Text-to-Video Generative AI Models
Kyrie Zhixuan Zhou, Abhinav Choudhry, Ece Gumusel, Madelyn Rose Sanfilippo
Social Medium Generated Content Text to Video OpenAI Codex Governance Mechanism AI Literacy

April 2, 2024

CameraCtrl: Enabling Camera Control for Text-to-Video Generation
Hao He, Yinghao Xu, Yuwei Guo, Gordon Wetzstein, Bo Dai, Hongsheng Li, Ceyuan Yang
Text to Video Text to Video Generation Camera Control Video Customization Viewpoint Control

March 20, 2024

VSTAR: Generative Temporal Nursing for Longer Dynamic Video Synthesis
Yumeng Li, William Beluch, Margret Keuper, Dan Zhang, Anna Khoreva
Pre Trained Text to Video

March 18, 2024

March 10, 2024

FastVideoEdit: Leveraging Consistency Models for Efficient Text-to-Video Editing
Youyuan Zhang, Xuan Ju, James J. Clark
Zero Shot Text to Video Video Editing Image Generation Model Consistency Model

Text to Video

Papers

Searching Priors Makes Text-to-Video Synthesis Better

Analysing the Public Discourse around OpenAI's Text-To-Video Model 'Sora' using Topic Modeling

T2V-Turbo: Breaking the Quality Bottleneck of Video Consistency Model with Mixed Reward Feedback

RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives

Text Prompting for Multi-Concept Video Customization by Autoregressive Generation

DisenStudio: Customized Multi-subject Text-to-Video Generation with Disentangled Spatial Control

TALC: Time-Aligned Captions for Multi-Scene Text-to-Video Generation

Sora Detector: A Unified Hallucination Detection for Large Text-to-Video Models

TI2V-Zero: Zero-Shot Image Conditioning for Text-to-Video Diffusion Models

Exploring AIGC Video Quality: A Focus on Visual Harmony, Video-Text Consistency and Domain Distribution Gap

RoboDreamer: Learning Compositional World Models for Robot Imagination

AniClipart: Clipart Animation with Text-to-Video Priors

Dynamic Typography: Bringing Text to Life via Video Diffusion Prior

"Sora is Incredible and Scary": Emerging Governance Challenges of Text-to-Video Generative AI Models

CameraCtrl: Enabling Camera Control for Text-to-Video Generation

VSTAR: Generative Temporal Nursing for Longer Dynamic Video Synthesis

CoCoCo: Improving Text-Guided Video Inpainting for Better Consistency, Controllability and Compatibility

Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment

EffiVED:Efficient Video Editing via Text-instruction Diffusion Models

FastVideoEdit: Leveraging Consistency Models for Efficient Text-to-Video Editing