Audio Visual

Audio-visual research focuses on understanding and leveraging the interplay between audio and visual information, primarily aiming to improve multimodal understanding and generation. Current research emphasizes developing sophisticated models, often employing transformer architectures and diffusion models, to achieve tasks like video-to-audio generation, audio-visual speech recognition, and emotion analysis from combined audio-visual data. This field is significant for its potential applications in various domains, including media production, accessibility technologies, and even mental health diagnostics, by enabling more robust and nuanced analysis of multimedia content.

Papers

July 10, 2024

July 9, 2024

A Framework for Multimodal Medical Image Interaction
Laura Schütz, Sasan Matinfar, Gideon Schafroth, Navid Navab, Merle Fairhurst, Arthur Wagner, Benedikt Wiestler, Ulrich Eck, Nassir Navab
New Framework Medical Image Audio Visual Multimodal Information

July 8, 2024

July 4, 2024

Semantic Grouping Network for Audio Source Separation
Shentong Mo, Yapeng Tian
Audio Visual Audio Source Separation Speech Representation Disentanglement Sound Separation Grouping Network

July 2, 2024

SAVE: Segment Audio-Visual Easy way using Segment Anything Model
Khanh-Binh Nguyen, Chae Jung Park
Segment Anything Model Audio Visual Segmentation Mask Well Defined Segment Audio Visual Segmentation Audio Visual Fusion Search With Amortized Value Estimates"

June 22, 2024

video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models
Guangzhi Sun, Wenyi Yu, Changli Tang, Xianzhao Chen, Tian Tan, Wei Li, Lu Lu, Zejun Ma, Yuxuan Wang, Chao Zhang
Audio Visual Mixed Supervised Learning Audio Visual Large Language Model

June 18, 2024

SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization
Young Jin Ahn, Jungwoo Park, Sangha Park, Jonghyun Choi, Kee-Eung Kim
Speech Recognition Audio Visual Visual Representation Visual Speech Recognition Cross Modal Supervision

June 17, 2024

GameVibe: A Multimodal Affective Game Corpus
Matthew Barthet, Maria Kaselimi, Kosmas Pinitas, Konstantinos Makantasis, Antonios Liapis, Georgios N. Yannakakis
Audio Visual Affective Computing User Engagement Game State Test Stimulus

June 13, 2024

DubWise: Video-Guided Speech Duration Control in Multimodal LLM-based Text-to-Speech for Dubbing
Neha Sahipjohn, Ashishkumar Gudmalwar, Nirmesh Shah, Pankaj Wasnik, Rajiv Ratn Shah
Text to Speech Audio Visual Multimodal Phenomenon Synthesized Speech Lip Sync Point Wise Operation Movie Dubbing

June 10, 2024

Extending Segment Anything Model into Auditory and Temporal Dimensions for Audio-Visual Segmentation
Juhyeong Seon, Woobin Im, Sebin Lee, Jumin Lee, Sung-Eui Yoon
Segment Anything Model Audio Visual Visual Attention Audio Visual Segmentation Audio Visual Correspondence Temporal Dimension

June 7, 2024

A model of early word acquisition based on realistic-scale audiovisual naming events
Khazar Khorrami, Okko Räsänen
LeArning Abstract Full Model Audio Visual Object Naming

June 6, 2024

VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling
Zeyue Tian, Zhaoyang Liu, Ruibin Yuan, Jiahao Pan, Qifeng Liu, Xu Tan, Qifeng Chen, Wei Xue, Yike Guo
Audio Visual Long Term Music Generation Video Pair Generation Framework

June 5, 2024

AVFF: Audio-Visual Feature Fusion for Video Deepfake Detection
Trevine Oorloff, Surya Koppisetti, Nicolò Bonettini, Divyaraj Solanki, Ben Colman, Yaser Yacoob, Ali Shahriyari, Gaurav Bharaj
Audio Visual Deepfake Detection Deepfake Video DeepFake Video Detection Unseen Deepfakes

June 1, 2024

May 29, 2024

RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter
Meng Cao, Haoran Tang, Jinfa Huang, Peng Jin, Can Zhang, Ruyang Liu, Long Chen, Xiaodan Liang, Li Yuan, Ge Li
Audio Visual Pre Trained Vision Language Model Video Text Retrieval Text Video Retrieval Image to Video Sparse Retrieval Long Short Range Adapter

May 17, 2024

SBAAM! Eliminating Transcript Dependency in Automatic Subtitling
Marco Gaido, Sara Papi, Matteo Negri, Mauro Cettolo, Luisa Bentivogli
Audio Visual Language Pair Automatic Transcription Well Formed Subtitle

May 14, 2024

Hearing Touch: Audio-Visual Pretraining for Contact-Rich Manipulation
Jared Mejia, Victoria Dean, Tess Hellebrekers, Abhinav Gupta
Audio Visual Robot Learning Tactile Sensing Human Touch Large Scale Pretraining Contact Rich Manipulation