Video Object Composition

Video object composition aims to seamlessly integrate objects from different video sources into a coherent and realistic composite video, preserving motion and identity consistency. Recent research heavily utilizes pre-trained diffusion models, often employing techniques like attention mechanisms and feature injections to manage inter-object interactions and ensure temporal coherence across frames. These training-free or zero-shot approaches address limitations of previous methods, particularly in handling complex scenes and significant semantic differences between source videos. This field is advancing video editing capabilities with implications for film production, special effects, and other applications requiring sophisticated video manipulation.

Papers

June 22, 2024

MVOC: a training-free multiple video object composition method with diffusion models
Wei Wang, Yaosen Chen, Yuegen Liu, Qi Yuan, Shubin Yang, Yanru Zhang
Diffusion Model Attention Module Image to Video Generation Video Composition Video Object Composition

March 24, 2024

EVA: Zero-shot Accurate Attributes and Multi-Object Video Editing
Xiangpeng Yang, Linchao Zhu, Hehe Fan, Yi Yang
Attention Mechanism Attention Weight Conditioned Diffusion Diffusion Based Video Editing Eva Clip Video Object Composition

January 17, 2024

Training-Free Semantic Video Composition via Pre-trained Diffusion Model
Jiaqi Guo, Sitong Su, Junchen Zhu, Lianli Gao, Jingkuan Song
Pre Trained Diffusion Model Frame Attention Composite Image Video Composition Video Object Composition

Video Object Composition

Papers

MVOC: a training-free multiple video object composition method with diffusion models

EVA: Zero-shot Accurate Attributes and Multi-Object Video Editing

Training-Free Semantic Video Composition via Pre-trained Diffusion Model