Audio Visual

Audio-visual research focuses on understanding and leveraging the interplay between audio and visual information, primarily aiming to improve multimodal understanding and generation. Current research emphasizes developing sophisticated models, often employing transformer architectures and diffusion models, to achieve tasks like video-to-audio generation, audio-visual speech recognition, and emotion analysis from combined audio-visual data. This field is significant for its potential applications in various domains, including media production, accessibility technologies, and even mental health diagnostics, by enabling more robust and nuanced analysis of multimedia content.

Papers

May 12, 2023

Transavs: End-To-End Audio-Visual Segmentation With Transformer
Yuhang Ling, Yuxi Li, Zhenye Gan, Jiangning Zhang, Mingmin Chi, Yabiao Wang
Transformer Based Audio Visual Segmentation Mask Audio Visual Segmentation VidSGG Datasets Audio Object

May 6, 2023

AADiff: Audio-Aligned Video Synthesis with Text-to-Image Diffusion
Seungwoo Lee, Chaerin Kong, Donghyeon Jeon, Nojun Kwak
Audio Visual Text to Video Text to Image Diffusion Video Synthesis T2I Diffusion Model Audio Driven Visual Synthesis

May 3, 2023

AV-SAM: Segment Anything Model Meets Audio-Visual Localization and Segmentation
Shentong Mo, Yapeng Tian
Segmentation Based Approach Segment Anything Model Audio Visual Modal Feature Audio Visual Segmentation Audio Visual Event Localization Visual Sound

April 17, 2023

VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset
Sihan Chen, Xingjian He, Longteng Guo, Xinxin Zhu, Weining Wang, Jinhui Tang, Jing Liu
Data Set Vision Language Audio Visual Single Modality

April 13, 2023

Brain Connectivity Features-based Age Group Classification using Temporal Asynchrony Audio-Visual Integration Task
Prerna Singh, Ayush Tripathi, Lalan Kumar, Tapan Kumar Gandhi
Audio Visual Brain Connectivity Cognitive Decline Multi Sensory Age Group Classification

April 6, 2023

Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation
Yuanhong Chen, Yuyuan Liu, Hu Wang, Fengbei Liu, Chong Wang, Helen Frazer, Gustavo Carneiro
Audio Visual Segmentation Benchmark Audio Visual Segmentation Audio Visual Learning

March 30, 2023

Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment
Kim Sung-Bin, Arda Senocak, Hyunwoo Ha, Andrew Owens, Tae-Hyun Oh
Audio Visual Scene Generation Sound Design Sound Source Localization Video Pair Cross Modal Correlation

March 29, 2023

March 28, 2023

Language-Guided Audio-Visual Source Separation via Trimodal Consistency
Reuben Tan, Arijit Ray, Andrea Burns, Bryan A. Plummer, Justin Salamon, Oriol Nieto, Bryan Russell, Kate Saenko
Audio Visual Vision Language Foundation Model Audio Source Separation Self Supervised Approach Trimodal Network Sound Source Separation Target Supervision

March 23, 2023

Egocentric Audio-Visual Object Localization
Chao Huang, Yapeng Tian, Anurag Kumar, Chenliang Xu
Audio Visual Egocentric Video Egocentric View Cross Modal Localization

March 21, 2023

ModEFormer: Modality-Preserving Embedding for Audio-Video Synchronization using Transformers
Akash Gupta, Rohun Tripathi, Wondong Jang
Transformer Megatron Decepticons Audio Visual Transformer Based Approach Modality Aware Transformer

March 14, 2023

DisCoHead: Audio-and-Video-Driven Talking Head Generation by Disentangled Control of Head Pose and Facial Expressions
Geumbyeol Hwang, Sunwon Hong, Seunghyun Lee, Sungwoo Park, Gyeongsu Chae
Audio Visual Facial Expression Head Generation Head Motion Lip Sync Head Pose Head Video

March 13, 2023

The Audio-Visual BatVision Dataset for Research on Sight and Sound
Amandine Brunetto, Sascha Hornauer, Stella X. Yu, Fabien Moutarde
Audio Visual DH Research Sound Design Plain Sight Audio Visual Task Biological Echolocation System

March 12, 2023

Accommodating Audio Modality in CLIP for Multimodal Processing
Ludan Ruan, Anwen Hu, Yuqing Song, Liang Zhang, Sipeng Zheng, Qin Jin
Vision Language Model Vision Language Audio Visual Single CLIP Multimodal Processing Audio Modality

March 11, 2023

CASP-Net: Rethinking Video Saliency Prediction from an Audio-VisualConsistency Perceptual Perspective
Junwen Xiong, Ganglai Wang, Peng Zhang, Wei Huang, Yufei Zha, Guangtao Zhai
Audio Visual Eye Tracking Audio Visual Representation Audio Visual Saliency Video Saliency Prediction

March 6, 2023

wav2vec and its current potential to Automatic Speech Recognition in German for the usage in Digital History: A comparative assessment of available ASR-technologies for the use in cultural heritage contexts
Michael Fleck, Wolfgang Göderle
Automatic Speech Recognition Audio Visual Local Culture Cultural Heritage Digital Humanity

March 1, 2023

On the Audio-visual Synchronization for Lip-to-Speech Synthesis
Zhe Niu, Brian Mak
Audio Visual Video Pair Lip to Speech Synthesis Synthesis Model Lip to Speech

February 25, 2023

Speaker Recognition in Realistic Scenario Using Multimodal Data
Saqlain Hussain Shah, Muhammad Saad Saeed, Shah Nawaz, Muhammad Haroon Yousaf
Audio Visual Multimodal Data Speaker Recognition Speaker Recognition Task

February 15, 2023

Audio-Visual Contrastive Learning with Temporal Self-Supervision
Simon Jenni, Alexander Black, John Collomosse
Self Supervised Learning Action Recognition Audio Visual Audio Representation Temporal Self