Self Supervised Audio Visual

Self-supervised audio-visual learning aims to create robust representations of audio and visual data by training models on unlabeled data, overcoming limitations of supervised methods that require large, manually annotated datasets. Current research focuses on contrastive learning and masked autoencoder architectures, often incorporating techniques like equivariance to handle data augmentations and hierarchical structures to learn multi-level features. These advancements are significantly improving performance on tasks like emotion recognition, speech recognition, and video inpainting, demonstrating the potential for more efficient and generalizable audio-visual systems.

Papers

March 14, 2024

EquiAV: Leveraging Equivariance for Audio-Visual Contrastive Learning
Jongsuk Kim, Hyeongkeun Lee, Kyeongha Rho, Junmo Kim, Joon Son Chung
Audio Visual Inter Part Equivariance Audio Visual Learning Self Supervised Audio Visual

January 11, 2024

HiCMAE: Hierarchical Contrastive Masked Autoencoder for Self-Supervised Audio-Visual Emotion Recognition
Licai Sun, Zheng Lian, Bin Liu, Jianhua Tao
Emotion Recognition Contrastive Masked Self Supervised Audio Visual

December 14, 2023

Audio-visual fine-tuning of audio-only ASR models
Avner May, Dmitriy Serdyuk, Ankit Parag Shah, Otavio Braga, Olivier Siohan
Training Data Automatic Speech Recognition Visual Speech One Shot Video Tuning Self Supervised Audio Visual

October 11, 2023

Deep Video Inpainting Guided by Audio-Visual Self-Supervision
Kyuyeon Kim, Junsik Jung, Woo Jae Kim, Sung-Eui Yoon
Consistency Loss Video Inpainting Depth Video Audio Visual Correspondence Self Supervised Audio Visual

December 15, 2022

MAViL: Masked Audio-Video Learners
Po-Yao Huang, Vasu Sharma, Hu Xu, Chaitanya Ryali, Haoqi Fan, Yanghao Li, Shang-Wen Li, Gargi Ghosh, Jitendra Malik, Christoph Feichtenhofer
Audio Visual Audio Visual Representation Video Masked Self Supervised Audio Visual

April 29, 2022

On Negative Sampling for Audio-Visual Contrastive Learning from Movies
Mahdi M. Kalayeh, Shervin Ardeshir, Lingyi Liu, Nagendra Kamath, Ashok Chandrashekar
Representation Learning Audio Visual Negative Sampling Movie Review Untrimmed Video Self Supervised Audio Visual

November 8, 2021

Cascaded Multilingual Audio-Visual Learning from Videos
Andrew Rouditchenko, Angie Boggust, David Harwath, Samuel Thomas, Hilde Kuehne, Brian Chen, Rameswar Panda, Rogerio Feris, Brian Kingsbury, Michael Picheny, James Glass
Gameplay Video Audio Caption Multilingual Audio Visual Self Supervised Audio Visual