Audio Visual

Audio-visual research focuses on understanding and leveraging the interplay between audio and visual information, primarily aiming to improve multimodal understanding and generation. Current research emphasizes developing sophisticated models, often employing transformer architectures and diffusion models, to achieve tasks like video-to-audio generation, audio-visual speech recognition, and emotion analysis from combined audio-visual data. This field is significant for its potential applications in various domains, including media production, accessibility technologies, and even mental health diagnostics, by enabling more robust and nuanced analysis of multimedia content.

Papers

November 2, 2022

Impact of annotation modality on label quality and model performance in the automatic assessment of laughter in-the-wild
Jose Vargas-Quiros, Laura Cabrera-Quiros, Catharine Oertel, Hayley Hung
Audio Visual Multimodal Phenomenon Model Performance Automatic Assessment Human Labeling Laughter Detection Interactive Data Annotation

October 29, 2022

Learning Audio-Visual Dynamics Using Scene Graphs for Audio Source Separation
Moitreya Chatterjee, Narendra Ahuja, Anoop Cherian
Audio Visual Scene Graph Source Separation Audio Source Separation Video to Video Audio Separation

October 28, 2022

Speaker recognition with two-step multi-modal deep cleansing
Ruijie Tao, Kong Aik Lee, Zhan Shi, Haizhou Li
Audio Visual Speaker Recognition Robust Speaker Representation Speaker Recognition Model

October 27, 2022

Multimodal Transformer Distillation for Audio-Visual Synchronization
Xuanjun Chen, Haibin Wu, Chung-Che Wang, Hung-yi Lee, Jyh-Shing Roger Jang
Audio Visual Multimodal Transformer

October 17, 2022

An Open-source Benchmark of Deep Learning Models for Audio-visual Apparent and Self-reported Personality Recognition
Rongfan Liao, Siyang Song, Hatice Gunes
Deep Learning Model Audio Visual Personality Recognition Personality Computing

October 13, 2022

Sparse in Space and Time: Audio-visual Synchronisation with Trainable Selectors
Vladimir Iashin, Weidi Xie, Esa Rahtu, Andrew Zisserman
Audio Visual Time Matter Many Sparse Deep Space Sparse Signal Network Selection Audio Visual Model Video Synchronization

October 11, 2022

AVE-CLIP: AudioCLIP-based Multi-window Temporal Transformer for Audio Visual Event Localization
Tanvir Mahmud, Diana Marculescu
Audio Visual Temporal Transformer Audio Visual Event Localization Audio Visual Event

October 4, 2022

Pay Self-Attention to Audio-Visual Navigation
Yinfeng Yu, Lele Cao, Fuchun Sun, Xiaohong Liu, Liejun Wang
Self Attention Audio Visual Self Attention Module Audio Encoder Audio Visual Navigation

October 2, 2022

Contrastive Audio-Visual Masked Autoencoder
Yuan Gong, Andrew Rouditchenko, Alexander H. Liu, David Harwath, Leonid Karlinsky, Hilde Kuehne, James Glass
Audio Visual Video Masked Masked Auto Encoder

September 27, 2022

Direct Speech Translation for Automatic Subtitling
Sara Papi, Marco Gaido, Alina Karakanta, Mauro Cettolo, Matteo Negri, Marco Turchi
Audio Visual Language Pair Direct Speech to Speech Translation Well Formed Subtitle

September 11, 2022

MAiVAR: Multimodal Audio-Image and Video Action Recognizer
Muhammad Bilal Shaikh, Douglas Chai, Syed Mohammed Shamsul Islam, Naveed Akhtar
Action Recognition Audio Visual Video Action Recognition

September 9, 2022

Learning Audio-Visual embedding for Person Verification in the Wild
Peiwen Sun, Shanshan Zhang, Zishan Liu, Yougen Yuan, Taotao Zhang, Honggang Zhang, Pengfei Hu
Wild Challenge Audio Visual Identity Verification Face Verification Attentive Pooling Gaussian Attention

August 3, 2022

Audio-visual scene classification via contrastive event-object alignment and semantic-based fusion
Yuanbo Hou, Bo Kang, Dick Botteldooren
Audio Visual Scene Classification Semantic Fusion Audio Visual Scene

July 29, 2022

UAVM: Towards Unifying Audio and Visual Models
Yuan Gong, Alexander H. Liu, Andrew Rouditchenko, James Glass
Audio Visual Visual Model Modality Independent

July 27, 2022

End-To-End Audiovisual Feature Fusion for Active Speaker Detection
Fiseha B. Tesema, Zheyuan Lin, Shiqiang Zhu, Wei Song, Jason Gu, Hong Wu
Audio Visual High Performing 1D ConvNet Active Speaker Detection Mel Frequency Cepstral Coefficient Ava ActiveSpeaker

July 16, 2022

LAVA: Language Audio Vision Alignment for Contrastive Video Pre-Training
Sumanth Gurram, Andy Fang, David Chan, John Canny
Contrastive Learning Self Supervised Audio Visual Video Representation Video Action Recognition Contrastive Pre Training Lava Flow

July 9, 2022

Dual-Path Cross-Modal Attention for better Audio-Visual Speech Extraction
Zhongweiyang Xu, Xulin Fan, Mark Hasegawa-Johnson
Audio Visual Cross Modal Attention Dual Path Time Domain Speech Separation Audio Visual Speaker Extraction Audio Visual Target

July 7, 2022

AV-Gaze: A Study on the Effectiveness of Audio Guided Visual Attention Estimation for Non-Profilic Faces
Shreya Ghosh, Abhinav Dhall, Munawar Hayat, Jarrod Knibbe
Study Feature Audio Visual Human Face Visual Attention Provider Gaze Head Pose Estimation

June 30, 2022

Improving Visual Speech Enhancement Network by Learning Audio-visual Affinity with Multi-head Attention
Xinmeng Xu, Yang Wang, Jie Jia, Binbin Chen, Dejun Li
Audio Visual Audio Visual Speech Enhancement Multi Head Cross Attention

June 21, 2022

Rethinking Audio-visual Synchronization for Active Speaker Detection
Abudukelimu Wuerkaixi, You Zhang, Zhiyao Duan, Changshui Zhang
Audio Visual Multi Speaker Active Speaker Detection Linguistic Entrainment