Audio Visual

Audio-visual research focuses on understanding and leveraging the interplay between audio and visual information, primarily aiming to improve multimodal understanding and generation. Current research emphasizes developing sophisticated models, often employing transformer architectures and diffusion models, to achieve tasks like video-to-audio generation, audio-visual speech recognition, and emotion analysis from combined audio-visual data. This field is significant for its potential applications in various domains, including media production, accessibility technologies, and even mental health diagnostics, by enabling more robust and nuanced analysis of multimedia content.

Papers

September 28, 2023

September 25, 2023

Speed Co-Augmentation for Unsupervised Audio-Visual Pre-training
Jiangliu Wang, Jianbo Jiao, Yibing Song, Stephen James, Zhan Tong, Chongjian Ge, Pieter Abbeel, Yun-hui Liu
Audio Visual Unsupervised Setting Self Augmentation Video Pair

September 23, 2023

HAVE-Net: Hallucinated Audio-Visual Embeddings for Few-Shot Classification with Unimodal Cues
Ankit Jha, Debabrata Pal, Mainak Singha, Naman Agarwal, Biplab Banerjee
Classification Code Meta Learning Audio Visual Multimodal Information Shot Classification Unimodal Representation

September 19, 2023

AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models
Yuan Tseng, Layne Berry, Yi-Ting Chen, I-Hsiang Chiu, Hsuan-Hao Lin, Max Liu, Puyuan Peng, Yi-Jen Shih, Hung-Yu Wang, Haibin Wu, Po-Yao Huang, Chun-Mao Lai, Shang-Wen Li, David Harwath, Yu Tsao, Shinji Watanabe, Abdelrahman Mohamed, Chi-Luen Feng, Hung-yi Lee
Audio Visual Task Specific Multi Task Benchmark Audio Visual Representation Audio Visual Learning Universal Performance Benchmark Audio Visual Task

September 18, 2023

CATR: Combinatorial-Dependence Audio-Queried Transformer for Audio-Visual Video Segmentation
Kexin Li, Zongxin Yang, Lei Chen, Yi Yang, Jun Xiao
Fine Grained Transformer Based Audio Visual Audio Visual Segmentation Audio Visual Transformer Based Audio Retrieval Dependent Graph

September 14, 2023

AV2Wav: Diffusion-Based Re-synthesis from Continuous Self-supervised Features for Audio-Visual Speech Enhancement
Ju-Chieh Chou, Chung-Ming Chien, Karen Livescu
Speech Enhancement Audio Visual Audio Visual Speech Enhancement Exploratory Reformulation Self Supervised Feature

September 13, 2023

September 12, 2023

DF-TransFusion: Multimodal Deepfake Detection via Lip-Audio Cross-Attention and Facial Self-Attention
Aaditya Kharel, Manas Paranjape, Aniket Bera
Self Attention Audio Visual Deepfake Detection Lip Synchronization Blood Transfusion

September 11, 2023

Hierarchical Audio-Visual Information Fusion with Multi-label Joint Decoding for MER 2023
Haotian Wang, Yuxuan Xi, Hang Chen, Jun Du, Yan Song, Qing Wang, Hengshun Zhou, Chenxi Wang, Jiefeng Ma, Pengfei Hu, Ya Jiang, Shi Cheng, Jie Zhang, Yuzhe Weng
Audio Visual Deep Feature Joint Encoder Dimensional Emotion Deep Feature Fusion

September 8, 2023

EGOFALLS: A visual-audio dataset and benchmark for fall detection using egocentric cameras
Xueyi Wang
New Benchmark Multi Modal Audio Visual Ego Motion Fall Detection Accelerometer Signal Egocentric Camera Decision Level Fusion Fusion Layer

September 7, 2023

Text-to-feature diffusion for audio-visual few-shot learning
Otniel-Bogdan Mercea, Thomas Hummel, A. Sophia Koepke, Zeynep Akata
Audio Visual Video Classification Text to Image Diffusion Shot Class Incremental Audio Classification Shot Video Classification

September 6, 2023

LuViRA Dataset Validation and Discussion: Comparing Vision, Radio, and Audio Sensors for Indoor Localization
Ilayda Yaman, Guoda Tian, Erik Tegler, Jens Gulin, Nikhil Challa, Fredrik Tufvesson, Ove Edfors, Kalle Astrom, Steffen Malkowsky, Liang Liu
Vision Paper Audio Visual Indoor Localization Radio Source High Accuracy Localization Vision Based Localization Radio Based

August 18, 2023

Audiovisual Moments in Time: A Large-Scale Annotated Dataset of Audiovisual Actions
Michael Joannou, Pia Rotshtein, Uta Noppeney
Audio Visual Time Matter Video Context Large Scale Annotated

August 17, 2023

Bridging High-Quality Audio and Video via Language for Sound Effects Retrieval from Visual Queries
Julia Wilkins, Justin Salamon, Magdalena Fuentes, Juan Pablo Bello, Oriol Nieto
Training Data Human Language Audio Visual Source Video Visual Question High Fidelity Audio Audio Visual Retrieval Audio Retrieval Video Pair

August 16, 2023

IIANet: An Intra- and Inter-Modality Attention Network for Audio-Visual Speech Separation
Kai Li, Runxuan Yang, Fuchun Sun, Xiaolin Hu
Audio Visual Attention Pattern Modal Attention Audio Visual Speech Separation

August 14, 2023

August 11, 2023

Audio-Visual Spatial Integration and Recursive Attention for Robust Sound Source Localization
Sung Jin Um, Dongjin Kim, Jung Uk Kim
Audio Visual Sound Localization

Audio Visual

Papers

Audio-Visual Speaker Verification via Joint Cross-Attention

Audio Visual Speaker Localization from EgoCentric Views

Speed Co-Augmentation for Unsupervised Audio-Visual Pre-training

HAVE-Net: Hallucinated Audio-Visual Embeddings for Few-Shot Classification with Unimodal Cues

AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models

CATR: Combinatorial-Dependence Audio-Queried Transformer for Audio-Visual Video Segmentation

AV2Wav: Diffusion-Based Re-synthesis from Continuous Self-supervised Features for Audio-Visual Speech Enhancement

Getting More for Less: Using Weak Labels and AV-Mixup for Robust Audio-Visual Speaker Verification

Prompting Segmentation with Sound Is Generalizable Audio-Visual Source Localizer

DF-TransFusion: Multimodal Deepfake Detection via Lip-Audio Cross-Attention and Facial Self-Attention

Hierarchical Audio-Visual Information Fusion with Multi-label Joint Decoding for MER 2023

EGOFALLS: A visual-audio dataset and benchmark for fall detection using egocentric cameras

Text-to-feature diffusion for audio-visual few-shot learning

LuViRA Dataset Validation and Discussion: Comparing Vision, Radio, and Audio Sensors for Indoor Localization

Audiovisual Moments in Time: A Large-Scale Annotated Dataset of Audiovisual Actions

Bridging High-Quality Audio and Video via Language for Sound Effects Retrieval from Visual Queries

IIANet: An Intra- and Inter-Modality Attention Network for Audio-Visual Speech Separation

AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes

VoxBlink: A Large Scale Speaker Verification Dataset on Camera

Audio-Visual Spatial Integration and Recursive Attention for Robust Sound Source Localization