Audio Driven Visual Synthesis

Audio-driven visual synthesis focuses on generating realistic videos from audio input, aiming to achieve precise synchronization and semantic alignment between the audio and visual components. Current research heavily utilizes diffusion models and neural networks, often incorporating modules for temporal alignment, attention mechanisms to focus on relevant visual regions, and even scene geometry awareness for more accurate sound propagation. This field is significant for its potential applications in animation, video editing, and virtual/augmented reality, offering advancements in creating more immersive and believable multimedia experiences.

Papers

September 13, 2024

Rhythmic Foley: A Framework For Seamless Audio-Visual Alignment In Video-to-Audio Synthesis
Zhiqi Huang, Dan Luo, Jun Wang, Huan Liao, Zhiheng Li, Zhiyong Wu
New Framework Audio Visual Foley Sound Audio Driven Visual Synthesis

September 10, 2024

Draw an Audio: Leveraging Multi-Instruction for Video-to-Audio Synthesis
Qi Yang, Binjie Mao, Zili Wang, Xing Nie, Pengfei Gao, Ying Guo, Cheng Zhen, Pengfei Yan, Shiming Xiang
Audio Visual Audio Driven Synthesized Sound Video to Video Foley Sound Audio Driven Visual Synthesis

July 26, 2024

LinguaLinker: Audio-Driven Portraits Animation with Implicit Facial Control Enhancement
Rui Zhang, Yixiao Fang, Zhengnan Lu, Pei Cheng, Zebiao Huang, Bin Fu
Facial Motion Face Video Driven Portrait Animation Audio Driven Visual Synthesis

July 2, 2024

SOAF: Scene Occlusion-aware Neural Acoustic Field
Huiyu Gao, Jiahao Ma, David Ahmedt-Aristizabal, Chuong Nguyen, Miaomiao Liu
Audio Driven Visual Synthesis Acoustic Field Sound Field Decomposition

June 13, 2024

Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation
Mingwang Xu, Hui Li, Qingkun Su, Hanlin Shang, Liwei Zhang, Ce Liu, Jingdong Wang, Yao Yao, Siyu Zhu
Diffusion Based Generative Model Portrait Animation Audio Driven Visual Synthesis Dynamic Portrait

February 27, 2024

EMO: Emote Portrait Alive -- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions
Linrui Tian, Qi Wang, Bang Zhang, Liefeng Bo
Diffusion Model Facial Expression Facial Motion Head Generation BLSP Emo Facial Avatar Audio Driven Visual Synthesis Realistic Video Portrait

June 16, 2023

CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained Language-Vision Models
Hao-Wen Dong, Xiaoyu Liu, Jordi Pons, Gautam Bhattacharya, Santiago Pascual, Joan Serrà, Taylor Berg-Kirkpatrick, Julian McAuley
Unlabeled Video Modality Gap Text to Speech Synthesis Audio Visual Correspondence Audio Driven Visual Synthesis

May 6, 2023

AADiff: Audio-Aligned Video Synthesis with Text-to-Image Diffusion
Seungwoo Lee, Chaerin Kong, Donghyeon Jeon, Nojun Kwak
Audio Visual Text to Video Text to Image Diffusion Video Synthesis T2I Diffusion Model Audio Driven Visual Synthesis

March 30, 2023

SynthVSR: Scaling Up Visual Speech Recognition With Synthetic Supervision
Xubo Liu, Egor Lakomkin, Konstantinos Vougioukas, Pingchuan Ma, Honglie Chen, Ruiming Xie, Morrie Doulaty, Niko Moritz, Jáchym Kolář, Stavros Petridis, Maja Pantic, Christian Fuegen
Visual Speech Recognition Deep Supervision Lip Motion Audio Driven Visual Synthesis

February 4, 2023

AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene Synthesis
Susan Liang, Chao Huang, Yapeng Tian, Anurag Kumar, Chenliang Xu
Real World Audio Visual Multimodal Learning Neural Field NeRF SLAM Spatial Audio Audio Driven Visual Synthesis