Audio Visual

Audio-visual research focuses on understanding and leveraging the interplay between audio and visual information, primarily aiming to improve multimodal understanding and generation. Current research emphasizes developing sophisticated models, often employing transformer architectures and diffusion models, to achieve tasks like video-to-audio generation, audio-visual speech recognition, and emotion analysis from combined audio-visual data. This field is significant for its potential applications in various domains, including media production, accessibility technologies, and even mental health diagnostics, by enabling more robust and nuanced analysis of multimedia content.

Papers

February 14, 2023

Balanced Audiovisual Dataset for Imbalance Analysis
Wenke Xia, Xu Zhao, Xincheng Pang, Changqing Zhang, Di Hu
Audio Visual Data Imbalance Modality Imbalance Modality Bias Modality Discrepancy

February 10, 2023

The LuViRA Dataset: Synchronized Vision, Radio, and Audio Sensors for Indoor Localization
Ilayda Yaman, Guoda Tian, Martin Larsson, Patrik Persson, Michiel Sandra, Alexander Dürr, Erik Tegler, Nikhil Challa, Henrik Garde, Fredrik Tufvesson, Kalle Åström, Ove Edfors, Steffen Malkowsky, Liang Liu
Vision Paper Audio Visual Sensor Fusion Indoor Localization Localization Task Radio Source Multisensory Data

February 4, 2023

AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene Synthesis
Susan Liang, Chao Huang, Yapeng Tian, Anurag Kumar, Chenliang Xu
Real World Audio Visual Multimodal Learning Neural Field NeRF SLAM Spatial Audio Audio Driven Visual Synthesis

January 23, 2023

Zorro: the masked multimodal transformer
Adrià Recasens, Jason Lin, Joāo Carreira, Drew Jaegle, Luyu Wang, Jean-baptiste Alayrac, Pauline Luc, Antoine Miech, Lucas Smaira, Ross Hemsley, Andrew Zisserman
Audio Visual Multimodal Transformer Multimodal Task Contrastive Pre Training Multimodal Processing Audio Visual Model

January 21, 2023

A Multi-Purpose Audio-Visual Corpus for Multi-Modal Persian Speech Recognition: the Arman-AV Dataset
Javad Peymanfard, Samin Heydarian, Ali Lashini, Hossein Zeinali, Mohammad Reza Mohammadi, Nasser Mozayani
Automatic Speech Recognition Audio Visual Lip Reading VidSGG Datasets Persian Speech

January 20, 2023

Novel-View Acoustic Synthesis
Changan Chen, Alexander Richard, Roman Shapovalov, Vamsi Krishna Ithapu, Natalia Neverova, Kristen Grauman, Andrea Vedaldi
Novel View Synthesis Audio Visual Novel View Acoustic Synthesis

January 16, 2023

OLKAVS: An Open Large-Scale Korean Audio-Visual Speech Dataset
Jeongkyun Park, Jung-Wook Hwang, Kwanghee Choi, Seung-Hyun Lee, Jun Hwan Ahn, Rae-Hong Park, Hyung-Min Park
Audio Visual

January 4, 2023

Self-Supervised Video Forensics by Audio-Visual Anomaly Detection
Chao Feng, Ziyang Chen, Andrew Owens
Anomaly Detection Audio Visual Video Anomaly Detection Speech Recording Video Forensics Multimedia Forensics

December 15, 2022

December 9, 2022

Audiovisual Masked Autoencoders
Mariana-Iuliana Georgescu, Eduardo Fonseca, Radu Tudor Ionescu, Mario Lucic, Cordelia Schmid, Anurag Arnab
Audio Visual Self Supervised Representation Learning Video Masked Audio Visual Fusion

December 7, 2022

iQuery: Instruments as Queries for Audio-Visual Sound Separation
Jiaben Chen, Renrui Zhang, Dongze Lian, Jiaqi Yang, Ziyao Zeng, Jianbo Shi
Audio Visual Query Information Speech Representation Disentanglement Musical Instrument Sound Separation Sound Source Separation Audio Visual Separation

December 5, 2022

Day2Dark: Pseudo-Supervised Activity Recognition beyond Silent Daylight
Yunhua Zhang, Hazel Doughty, Cees G. M. Snoek
Activity Recognition Audio Visual Complementary Information Low Light Video Supervised Human Activity Recognition

December 4, 2022

Tragic Talkers: A Shakespearean Sound- and Light-Field Dataset for Audio-Visual Machine Learning Research
Davide Berghi, Marco Volino, Philip J. B. Jackson
Data Set Multi View Audio Visual Spatial Audio Audio Visual Representation Learning

December 3, 2022

A subjective study of the perceptual acceptability of audio-video desynchronization in sports videos
Joshua Peter Ebenezer
Audio Visual Subjective Evaluation Language Stimulus Perceptual Fidelity

December 1, 2022

Audio-Visual Activity Guided Cross-Modal Identity Association for Active Speaker Detection
Rahul Sharma, Shrikanth Narayanan
Cross Modal Audio Visual Active Speaker Detection Face Voice Audio Visual Model

November 20, 2022

Audio-visual video face hallucination with frequency supervision and cross modality support by speech based lip reading loss
Shailza Sharma, Abhinav Dhall, Vinay Kumar, Vivek Singh Bawa
Speech Analysis Audio Visual Cross Modality Multi Temporal Lip Audio Memory Frequency Control Face Hallucination Auditory Verbal Hallucination

November 18, 2022

Contrastive Positive Sample Propagation along the Audio-Visual Event Line
Jinxing Zhou, Dan Guo, Meng Wang
Audio Visual Audio Visual Event

November 7, 2022

Complete Cross-triplet Loss in Label Space for Audio-visual Cross-modal Retrieval
Donghuo Zeng, Yanan Wang, Jianming Wu, Kazushi Ikeda
Audio Visual Cross Modal Retrieval Triplet Loss Label Space

November 2, 2022

SyncTalkFace: Talking Face Generation with Precise Lip-Syncing via Audio-Lip Memory
Se Jin Park, Minsu Kim, Joanna Hong, Jeongsoo Choi, Yong Man Ro
Fine Grained Audio Visual Face Generation Lip Sync Lip Movement Multi Temporal Lip Audio Memory Audio Visual Representation Learning