Sound Guided Image Manipulation

Sound-guided image manipulation uses audio input to modify or generate images, leveraging the inherent connection between auditory and visual experiences. Current research primarily focuses on integrating audio features into pre-trained diffusion models, often by mapping audio representations into a shared embedding space with text and images, enabling manipulation through latent optimization or direct token injection. This approach allows for more nuanced image control than text alone, offering richer semantic cues and dynamic expression, with applications in creative content generation, robotic art, and potentially advanced user interfaces.

Papers

May 1, 2024

SonicDiffusion: Audio-Driven Image Generation and Editing with Pretrained Diffusion Models
Burak Can Biner, Farrin Marouf Sofian, Umur Berkay Karakaş, Duygu Ceylan, Erkut Erdem, Aykut Erdem
Image Generation Pre Trained Diffusion Model Human Editing Conditional Image Synthesis Large Scale Text to Image Sound Guided Image Manipulation

June 20, 2023

Align, Adapt and Inject: Sound-guided Unified Image Generation
Yue Yang, Kaipeng Zhang, Yuying Ge, Wenqi Shao, Zeyue Xue, Yu Qiao, Ping Luo
Audio Representation LD Align Text Guided Image Generation Audio Visual Retrieval Independent Phone to Audio Alignment Unified Image Sound Guided Image Manipulation

February 9, 2023

Robot Synesthesia: A Sound and Emotion Guided AI Painter
Vihaan Misra, Peter Schaldenbrand, Jean Oh
Sound Design AI Art Robot Painting Sound Guided Image Manipulation Music Guided Painting

August 30, 2022

Robust Sound-Guided Image Manipulation
Seung Hyun Lee, Gyeongrok Oh, Wonmin Byeon, Sang Ho Yoon, Jinkyu Kim, Sangpil Kim
Robust Version Image Editing Semantic Cue Sound Guided Image Manipulation

November 30, 2021

Sound-Guided Semantic Image Manipulation
Seung Hyun Lee, Wonseok Roh, Wonmin Byeon, Sang Ho Yoon, Chan Young Kim, Jinkyu Kim, Sangpil Kim
Zero Shot Latent Representation Semantic Image Editing Audio Encoder Audio Modality Sound Guided Image Manipulation

Sound Guided Image Manipulation

Papers

SonicDiffusion: Audio-Driven Image Generation and Editing with Pretrained Diffusion Models

Align, Adapt and Inject: Sound-guided Unified Image Generation

Robot Synesthesia: A Sound and Emotion Guided AI Painter

Robust Sound-Guided Image Manipulation

Sound-Guided Semantic Image Manipulation