Audio Visual

Audio-visual research focuses on understanding and leveraging the interplay between audio and visual information, primarily aiming to improve multimodal understanding and generation. Current research emphasizes developing sophisticated models, often employing transformer architectures and diffusion models, to achieve tasks like video-to-audio generation, audio-visual speech recognition, and emotion analysis from combined audio-visual data. This field is significant for its potential applications in various domains, including media production, accessibility technologies, and even mental health diagnostics, by enabling more robust and nuanced analysis of multimedia content.

Papers

June 12, 2022

COLD Fusion: Calibrated and Ordinal Latent Distribution Fusion for Uncertainty-Aware Multimodal Emotion Recognition
Mani Kumar Tellamekala, Shahin Amiriparian, Björn W. Schuller, Elisabeth André, Timo Giesbrecht, Michel Valstar
Emotion Recognition Audio Visual Emotion Prediction Constrained Decoding Global Calibration Modal Uncertainty Ordinal Latent

June 9, 2022

Audio-video fusion strategies for active speaker detection in meetings
Lionel Pibre, Francisco Madrigal, Cyrille Equoy, Frédéric Lerasle, Thomas Pellegrini, Julien Pinquier, Isabelle Ferrané
Audio Visual Speaker Diarization Human VOICE Active Speaker Detection Meeting Minute Speech Segment

June 2, 2022

Self-supervised Learning of Audio Representations from Audio-Visual Data using Spatial Alignment
Shanshan Wang, Archontis Politis, Annamaria Mesaros, Tuomas Virtanen
Self Supervised Learning Audio Visual Audio Representation Spatial Audio Audio Visual Correspondence Spatial Alignment

May 31, 2022

Towards Context-Aware Neural Performance-Score Synchronisation
Ruchit Agrawal
Audio Visual Score Matching Accompaniment Arrangement

May 16, 2022

Perceptual Evaluation on Audio-visual Dataset of 360 Content
Randy F Fela, Andréas Pastor, Patrick Le Callet, Nick Zacharov, Toinon Vigier, Søren Forchhammer
Audio Visual Video Quality Subjective Quality Perceptual Evaluation Omnidirectional Video Multimodal Quality

May 15, 2022

Learning Lip-Based Audio-Visual Speaker Embeddings with AV-HuBERT
Bowen Shi, Abdelrahman Mohamed, Wei-Ning Hsu
LeArning Abstract Pre Training Audio Visual Audio Visual Speech Representation Audio Visual Speech

May 13, 2022

May 11, 2022

Deep Learning and Synthetic Media
Raphaël Millière
Deep Learning Audio Visual Deep Fake Synthetic Video Synthetic Medium

May 10, 2022

Learning Visual Styles from Audio-Visual Associations
Tingle Li, Yichen Liu, Andrew Owens, Hang Zhao
Audio Visual Image Stylization Based Model Unlabeled Video Texture Quality

April 29, 2022

On Negative Sampling for Audio-Visual Contrastive Learning from Movies
Mahdi M. Kalayeh, Shervin Ardeshir, Lingyi Liu, Nagendra Kamath, Ashok Chandrashekar
Representation Learning Audio Visual Negative Sampling Movie Review Untrimmed Video Self Supervised Audio Visual

April 28, 2022

Self-supervised Contrastive Learning for Audio-Visual Action Recognition
Yang Liu, Ying Tan, Haoyuan Lan
Contrastive Learning Audio Visual Contrastive Learning Module

April 25, 2022

Audio-Visual Scene Classification Using A Transfer Learning Based Joint Optimization Strategy
Chengxin Chen, Meng Wang, Pengyuan Zhang
Audio Visual Joint Optimization Audio Visual Scene

April 19, 2022

A Convolutional-Attentional Neural Framework for Structure-Aware Performance-Score Synchronization
Ruchit Agrawal, Daniel Wolff, Simon Dixon
Audio Visual Score Matching Score Based Music Sequence

April 6, 2022

Audio-Visual Person-of-Interest DeepFake Detection
Davide Cozzolino, Alessandro Pianese, Matthias Nießner, Luisa Verdoliva
Audio Visual Multi Modality Deepfake Detector Talking Face Video Audio Visual Deepfake Detection

April 5, 2022

VocaLiST: An Audio-Visual Synchronisation Model for Lips and Voices
Venkatesh S. Kadandale, Juan F. Montesinos, Gloria Haro
Audio Visual Human VOICE Vocal Performance Lip Synchronization Multi Temporal Lip Audio Memory

April 4, 2022

Multi-modality Associative Bridging through Memory: Speech Sound Recollected from Face Video
Minsu Kim, Joanna Hong, Se Jin Park, Yong Man Ro
Cross Modal Audio Visual Memory Trace Modality Specific Facial Video Memory Network Associative Recall Speech Component Modal Representation

April 1, 2022

Learning Audio-Video Modalities from Image Captions
Arsha Nagrani, Paul Hongsuck Seo, Bryan Seybold, Anja Hauth, Santiago Manen, Chen Sun, Cordelia Schmid
Audio Visual Audio Captioning Image Caption Video Retrieval Captioning Datasets Audio Retrieval

March 31, 2022

Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement by Re-Synthesis
Karren Yang, Dejan Markovic, Steven Krenn, Vasu Agrawal, Alexander Richard
Audio Visual Audio Visual Speech Enhancement Audio Visual Speech Representation Audio Visual Speech

March 27, 2022

Audio-Adaptive Activity Recognition Across Video Domains
Yunhua Zhang, Hazel Doughty, Ling Shao, Cees G. M. Snoek
Domain Adaptation Domain Shift Activity Recognition Audio Visual Video Domain Domain Invariant