Multimodal Dialogue

Multimodal dialogue research focuses on developing systems that can understand and generate responses using multiple modalities, such as text, images, audio, and video, within a conversational context. Current research emphasizes improving the accuracy and fluency of these systems, particularly focusing on emotion recognition, sentiment analysis, and common ground tracking, often employing large language models (LLMs) combined with modality-specific encoders and novel architectures like those based on graph spectral analysis or preference optimization. This field is significant for advancing human-computer interaction, enabling more natural and intuitive interfaces for applications ranging from virtual assistants and chatbots to healthcare and educational tools.

Papers

January 4, 2024

LLaVA-Phi: Efficient Multi-Modal Assistant with Small Language Model
Yichen Zhu, Minjie Zhu, Ning Liu, Zhicai Ou, Xiaofeng Mou, Jian Tang
Language Model Multi Modal Multi Modal Model Multimodal Dialogue LLaVA HD Multi Modal Dialogue

December 20, 2023

Enhancing Consistency in Multimodal Dialogue System Using LLM with Dialogue Scenario
Hiroki Onozeki, Zhiyang Qi, Kazuma Akiyama, Ryutaro Asahara, Takumasa Kaneko, Michimasa Inaba
Medical LLM Dialogue System Strong Consistency Multimodal Dialogue Conversational System Dialogue Scenario Dialogue Flow Dialogue Robot Competition

November 14, 2023

Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video Understanding
Peng Jin, Ryuichi Takanobu, Wancai Zhang, Xiaochun Cao, Li Yuan
Large Language Model Vision Language Model Video Understanding Multimodal Dialogue E Chat Unified Visual

October 8, 2023

MULTISCRIPT: Multimodal Script Learning for Supporting Open Domain Everyday Tasks
Jingyuan Qi, Minqian Liu, Ying Shen, Zhiyang Xu, Lifu Huang
Generative Question Multimodal Dialogue Multimodal Generative Model Script Event Prediction Domain Task

October 3, 2023

October 2, 2023

Application of frozen large-scale models to multimodal task-oriented dialogue
Tatsuki Kawamoto, Takuma Suzuki, Ko Miyama, Takumi Meguro, Tomohiro Takagi
Application Proficiency Multimodal Phenomenon Task Oriented Task Oriented Dialogue Multimodal Dialogue Dialogue Benchmark

October 1, 2023

LiveChat: Video Comment Generation from Audio-Visual Multimodal Contexts
Julien Lalanne, Raphael Bournet, Yi Yu
Multimodal Dialogue Video Context Live Video Commenting

September 14, 2023

TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild
Huayang Li, Siheng Li, Deng Cai, Longyue Wang, Lemao Liu, Taro Watanabe, Yujiu Yang, Shuming Shi
Wild Challenge Multimodal Phenomenon Instruction Following Larger Language Model Multimodal Dialogue Multimodal Instruction

August 31, 2023

TouchStone: Evaluating Vision-Language Models by Language Models
Shuai Bai, Shusheng Yang, Jinze Bai, Peng Wang, Xingxuan Zhang, Junyang Lin, Xinggang Wang, Chang Zhou, Jingren Zhou
Language Model Vision Language Model Large Vision Language Model Multimodal Input Multimodal Dialogue Visual Dialog Dialogue Quality Soft Touch

August 8, 2023

Revisiting Disentanglement and Fusion on Modality and Context in Conversational Multimodal Emotion Recognition
Bobo Li, Hao Fei, Lizi Liao, Yu Zhao, Chong Teng, Tat-Seng Chua, Donghong Ji, Fei Li
Context Information Multimodal Phenomenon Hybrid Fusion Disentanglement Capability Different Modality Multimodal Feature Multimodal Dialogue Multimodal Context Emotion Recognition in Conversation

May 27, 2023

A Unified Framework for Slot based Response Generation in a Multimodal Dialogue System
Mauajama Firdaus, Avinash Madasu, Asif Ekbal
Unified Framework Dialogue System Multimodal Information Response Generation Multimodal Dialogue Conversational System Multi Modal Dialogue COVID 19 Event Slot

May 24, 2023

May 23, 2023

ReSee: Responding through Seeing Fine-grained Visual Knowledge in Open-domain Dialogue
Haoqin Tu, Yitong Li, Fei Mi, Zhongliang Yang
Fine Grained Dialogue System Open Domain Dialogue Multimodal Dialogue Visual Knowledge

May 17, 2023

February 27, 2023

Language Is Not All You Need: Aligning Perception with Language Models
Shaohan Huang, Li Dong, Wenhui Wang, Yaru Hao, Saksham Singhal, Shuming Ma, Tengchao Lv, Lei Cui, Owais Khan Mohammed, Barun Patra, Qiang Liu, Kriti Aggarwal, Zewen Chi, Johan Bjorck, Vishrav Chaudhary, Subhojit Som, Xia Song, Furu Wei
Language Model Multimodal Large Language Model Human Language Multimodal Phenomenon Perception Aware Multimodal Dialogue Multimodal Perception

January 14, 2023

TikTalk: A Video-Based Dialogue Dataset for Multi-Modal Chitchat in Real World
Hongpeng Lin, Ludan Ruan, Wenke Xia, Peiyu Liu, Jingyuan Wen, Yixin Xu, Di Hu, Ruihua Song, Wayne Xin Zhao, Qin Jin, Zhiwu Lu
Real World Multimodal Dialogue Multimodal Context Multi Modal Dialogue TikTok Video Visual Dialogue

November 20, 2022

Explaining (Sarcastic) Utterances to Enhance Affect Understanding in Multimodal Dialogues
Shivani Kumar, Ishani Mondal, Md Shad Akhtar, Tanmoy Chakraborty
Line by Line Explanation Sarcasm Detection Multimodal Dialogue Sarcastic Text Emotion Discovery Speech Utterance Humour Style

Multimodal Dialogue

Papers

LLaVA-Phi: Efficient Multi-Modal Assistant with Small Language Model

Enhancing Consistency in Multimodal Dialogue System Using LLM with Dialogue Scenario

Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video Understanding

MULTISCRIPT: Multimodal Script Learning for Supporting Open Domain Everyday Tasks

Conversational Health Agents: A Personalized LLM-Powered Agent Framework

TWIZ-v2: The Wizard of Multimodal Conversational-Stimulus

Application of frozen large-scale models to multimodal task-oriented dialogue

LiveChat: Video Comment Generation from Audio-Visual Multimodal Contexts

TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild

TouchStone: Evaluating Vision-Language Models by Language Models

Revisiting Disentanglement and Fusion on Modality and Context in Conversational Multimodal Emotion Recognition

A Unified Framework for Slot based Response Generation in a Multimodal Dialogue System

Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language Models

PaCE: Unified Multi-modal Dialogue Pre-training with Progressive and Compositional Experts

ReSee: Responding through Seeing Fine-grained Visual Knowledge in Open-domain Dialogue

IMAD: IMage-Augmented multi-modal Dialogue

Dual Semantic Knowledge Composed Multimodal Dialog Systems

Language Is Not All You Need: Aligning Perception with Language Models

TikTalk: A Video-Based Dialogue Dataset for Multi-Modal Chitchat in Real World

Explaining (Sarcastic) Utterances to Enhance Affect Understanding in Multimodal Dialogues