Audio Visual Representation Learning

Audio-visual representation learning aims to create computational models that understand and integrate information from both audio and visual data, enabling machines to perceive the world more comprehensively. Current research focuses on developing robust models, often employing contrastive learning and transformer architectures, to capture fine-grained details and temporal relationships within audio-visual sequences, addressing limitations of previous aggregation-based methods. This field is significant for advancing applications such as audio-visual speech recognition, object detection and segmentation, gaze anticipation, and multimedia retrieval, ultimately leading to more sophisticated and human-like AI systems. The development of large-scale datasets and simulation platforms is also crucial for driving progress in this area.

13papers

Papers

May 6, 2025

CoGenAV: Versatile Audio-Visual Representation Learning via Contrastive-Generative Synchronization
Detao Bai, Zhiheng Ma, Xihan Wei, Liefeng Bo
Alibaba Group●Shenzhen University of Advanced Technology
Versatile Approach Audio Visual Audio Visual Speech Recognition Audio Visual Representation Learning Consistent Representation Visual Speech Recognition

February 9, 2025

Audio-Visual Representation Learning via Knowledge Distillation from Speech Foundation Models
Jing-Xuan Zhang, Genshun Wan, Jianqing Gao, Zhen-Hua Ling
Visual Speech Recognition Audio Visual Representation Learning Speech Foundation Model Knowledge Distillation

October 30, 2024

Aligning Audio-Visual Joint Representations with an Agentic Workflow
Shentong Mo, Yibing Song
Database Alignment Visual Data Alignment Problem Audio Visual Audio Visual Representation Learning Multi Modal LLM Joint Representation

September 27, 2024

From Vision to Audio and Beyond: A Unified Model for Audio-Visual Representation and Generation
Kun Su, Xiulong Liu, Eli Shlizerman
Audio Visual Retrieval Faithful Generation Audio Driven Audio Visual Video to Audio Generation Unified Model Vision Paper Audio Visual Representation Learning

September 18, 2024

DETECLAP: Enhancing Audio-Visual Representation Learning with Object Information
Shota Nakada, Taichi Nishimura, Hokuto Munakata, Masayoshi Kondo, Tatsuya Komatsu
Audio Visual Representation Video Masked Audio Visual Representation Learning Audio Visual Retrieval Multi Label Arbitrary Object

July 8, 2024

Sequential Contrastive Audio-Visual Learning
Ioannis Tsiamas, Santiago Pascual, Chunghsin Yeh, Joan Serrà
Sequential Information Audio Visual Audio Visual Representation Learning Contrastive Learning

February 4, 2024

Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues
Tianxiang Chen, Zhentao Tan, Tao Gong, Qi Chu, Yue Wu, Bin Liu, Le Lu, Jieping Ye, Nenghai Yu
Audio Visual Segmentation Audio Visual Audio Visual Cue Audio Visual Representation Audio Visual Representation Learning

September 1, 2023

Towards Contrastive Learning in Music Video Domain
Karel Veldkamp, Mariya Hendriksen, Zoltán Szlávik, Alexander Keijser
Contrastive Learning Audio Visual Representation Learning Semantic Loss Multimodal Representation

May 6, 2023

Listen to Look into the Future: Audio-Visual Egocentric Gaze Anticipation
Bolin Lai, Fiona Ryan, Wenqi Jia, Miao Liu, James M. Rehg
Egocentric Action Anticipation Egocentric Video Datasets Future Reasoning Audio Visual Representation Learning Audio Visual Correlation

April 12, 2023

Looking Similar, Sounding Different: Leveraging Counterfactual Cross-Modal Pairs for Audiovisual Representation Learning
Nikhil Singh, Chih-Wei Wu, Iroro Orife, Mahdi Kalayeh
Audio Visual Representation Learning High Similarity Cross Modal Contrastive Learning Audio Visual Model Audio Visual Task

December 4, 2022

Tragic Talkers: A Shakespearean Sound- and Light-Field Dataset for Audio-Visual Machine Learning Research
Davide Berghi, Marco Volino, Philip J. B. Jackson
Audio Visual Spatial Audio Multi View Audio Visual Representation Learning Data Set

November 2, 2022

SyncTalkFace: Talking Face Generation with Precise Lip-Syncing via Audio-Lip Memory
Se Jin Park, Minsu Kim, Joanna Hong, Jeongsoo Choi, Yong Man Ro
Face Generation Lip Movement Lip Sync Multi Temporal Lip Audio Memory Fine Grained Audio Visual Audio Visual Representation Learning

June 26, 2022

Exploiting Transformation Invariance and Equivariance for Self-supervised Sound Localisation
Jinxiang Liu, Chen Ju, Weidi Xie, Ya Zhang
Inter Part Equivariance Sound Localization Transformation Invariance Audio Visual Representation Audio Visual Representation Learning Audio Retrieval Multimodal Representation

June 16, 2022

SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning
Changan Chen, Carl Schissler, Sanchit Garg, Philip Kobernik, Alexander Clegg, Paul Calamia, Dhruv Batra, Philip W Robinson, Kristen Grauman
Spatial Audio Audio Visual Representation Learning Audio Visual Navigation Acoustic Environment Geometric Acoustic Simulation Platform

February 15, 2022

Learning Contextually Fused Audio-visual Representations for Audio-visual Speech Recognition
Zi-Qiang Zhang, Jie Zhang, Jian-Shu Zhang, Ming-Hui Wu, Xin Fang, Li-Rong Dai
Audio Visual Visual Speech Recognition Audio Visual Representation Learning Audio Visual Representation LeArning Abstract Audio Visual Speech Recognition Audio Visual Speech Representation

November 9, 2021

Self-Supervised Audio-Visual Representation Learning with Relaxed Cross-Modal Synchronicity
Pritam Sarkar, Ali Etemad
Audio Visual Representation Self Supervised Self Supervised Framework Cross Modal Audio Visual Representation Learning

Audio Visual Representation Learning

Papers

CoGenAV: Versatile Audio-Visual Representation Learning via Contrastive-Generative Synchronization

Audio-Visual Representation Learning via Knowledge Distillation from Speech Foundation Models

Aligning Audio-Visual Joint Representations with an Agentic Workflow

From Vision to Audio and Beyond: A Unified Model for Audio-Visual Representation and Generation

DETECLAP: Enhancing Audio-Visual Representation Learning with Object Information

Sequential Contrastive Audio-Visual Learning

Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues

Towards Contrastive Learning in Music Video Domain

Listen to Look into the Future: Audio-Visual Egocentric Gaze Anticipation

Looking Similar, Sounding Different: Leveraging Counterfactual Cross-Modal Pairs for Audiovisual Representation Learning

Tragic Talkers: A Shakespearean Sound- and Light-Field Dataset for Audio-Visual Machine Learning Research

SyncTalkFace: Talking Face Generation with Precise Lip-Syncing via Audio-Lip Memory

Exploiting Transformation Invariance and Equivariance for Self-supervised Sound Localisation

SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning

Learning Contextually Fused Audio-visual Representations for Audio-visual Speech Recognition

Self-Supervised Audio-Visual Representation Learning with Relaxed Cross-Modal Synchronicity