Audio Visual Large Language Model

Audio-visual large language models (AV-LLMs) aim to integrate visual and auditory information with the capabilities of large language models, enabling machines to understand and reason about the world from combined sensory input. Current research focuses on developing architectures that effectively fuse audio and visual streams, often employing transformer-based models with specialized modules for temporal alignment and cross-modal consistency, and addressing challenges like audio hallucinations. This field is significant for advancing multimodal AI, with potential applications in video understanding, question answering, and more accurate and nuanced human-computer interaction.

Papers

November 25, 2024

SAVEn-Vid: Synergistic Audio-Visual Integration for Enhanced Understanding in Long Video Context
Jungang Li, Sicheng Tao, Yibo Yan, Xiaojie Gu, Haodong Xu, Xu Zheng, Yuanhuiyi Lyu, Linfeng Zhang, Xuming Hu
Human Understanding Video Understanding Video LLM Audio Visual Large Language Model

October 23, 2024

AVHBench: A Cross-Modal Hallucination Benchmark for Audio-Visual Large Language Models
Kim Sung-Bin, Oh Hyun-Bin, JungMok Lee, Arda Senocak, Joon Son Chung, Tae-Hyun Oh
Language Model Multimodal Understanding Visual Signal Cross Modal Matching Hallucination Evaluation Benchmark Audio Visual Large Language Model

October 9, 2024

Enhancing Multimodal LLM for Detailed and Accurate Video Captioning using Multi-Round Preference Optimization
Changli Tang, Yixuan Li, Yudong Yang, Jimin Zhuang, Guangzhi Sun, Wei Li, Zujun Ma, Chao Zhang
Ground Truth Video Understanding Image Caption Video Captioning Audio Visual Large Language Model

July 1, 2024

Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time
Sanjoy Chowdhury, Sayan Nag, Subhrajyoti Dasgupta, Jun Chen, Mohamed Elhoseiny, Ruohan Gao, Dinesh Manocha
Time Matter Multimodal LLM Deep Space Grounding Network Modality Alignment Video LLM Audio Visual Large Language Model Audio Visual Task

June 22, 2024

video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models
Guangzhi Sun, Wenyi Yu, Changli Tang, Xianzhao Chen, Tian Tan, Wei Li, Lu Lu, Zejun Ma, Yuxuan Wang, Chao Zhang
Audio Visual Mixed Supervised Learning Audio Visual Large Language Model

January 18, 2024

On the Audio Hallucinations in Large Audio-Video Language Models
Taichi Nishimura, Shota Nakada, Masayoshi Kondo
Content Hallucination Hallucination Detection Audio Visual Large Language Model Auditory Verbal Hallucination

October 9, 2023

Fine-grained Audio-Visual Joint Representations for Multimodal Large Language Models
Guangzhi Sun, Wenyi Yu, Changli Tang, Xianzhao Chen, Tian Tan, Wei Li, Lu Lu, Zejun Ma, Chao Zhang
Fine Grained Multimodal Large Language Model Audio Visual Audio Visual Large Language Model

June 5, 2023

Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding
Hang Zhang, Xin Li, Lidong Bing
Cross Modal Video Understanding Text to Video Generation Audio Visual Large Language Model

March 27, 2023

Fine-grained Audible Video Description
Xuyang Shen, Dong Li, Jinxing Zhou, Zhen Qin, Bowen He, Xiaodong Han, Aixuan Li, Yuchao Dai, Lingpeng Kong, Meng Wang, Yu Qiao, Yiran Zhong
Audio Visual Large Language Model

November 21, 2022

VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning
Qiushi Zhu, Long Zhou, Ziqiang Zhang, Shujie Liu, Binxing Jiao, Jie Zhang, Lirong Dai, Daxin Jiang, Jinyu Li, Furu Wei
Speech Representation Visual Speech Recognition Cross Modal Representation Learning Masked Prediction Audio Visual Large Language Model

Audio Visual Large Language Model

Papers

SAVEn-Vid: Synergistic Audio-Visual Integration for Enhanced Understanding in Long Video Context

AVHBench: A Cross-Modal Hallucination Benchmark for Audio-Visual Large Language Models

Enhancing Multimodal LLM for Detailed and Accurate Video Captioning using Multi-Round Preference Optimization

Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time

video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models

On the Audio Hallucinations in Large Audio-Video Language Models

Fine-grained Audio-Visual Joint Representations for Multimodal Large Language Models

Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding

Fine-grained Audible Video Description

VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning