Multimodal Input

Multimodal input processing focuses on enabling artificial intelligence systems to understand and integrate information from multiple sources like text, images, audio, and video, aiming to achieve a more comprehensive and human-like understanding. Current research emphasizes improving the robustness and efficiency of multimodal large language models (MLLMs), addressing issues like hallucination, knowledge conflicts between modalities, and the handling of missing or incomplete data through techniques such as causal inference, active perception evaluation, and masked modality projection. This field is significant because it underpins advancements in various applications, including robotics, personalized healthcare, and improved accessibility of information, by enabling more natural and effective human-computer interaction.

Papers

October 3, 2024

MMP: Towards Robust Multi-Modal Learning with Masked Modality Projection
Niki Nezakati, Md Kaykobad Reza, Ameya Patil, Mashhour Solh, M. Salman Asif
Multimodal Learning Multimodal Input Missing Modality Robust Multimodal Masked Multimodal Modality Robustness

October 1, 2024

Can visual language models resolve textual ambiguity with visual cues? Let visual puns tell you!
Jiwan Chung, Seungwon Lim, Jaehyun Jeon, Seungbeen Lee, Youngjae Yu
Visual Language Model Multimodal Input Multimodal Understanding Visual Cue Semantic Ambiguity Pun Generation Ambiguous Natural Language

September 25, 2024

A Roadmap for Embodied and Social Grounding in LLMs
Sara Incao, Carlo Mazzola, Giulia Belgiovine, Alessandra Sciutti
Large Language Model Non Humanoid Robot Robotics Domain Multimodal Input Embodied Vision Task Driven Exploration

September 24, 2024

StyleFusion TTS: Multimodal Style-control and Enhanced Feature Fusion for Zero-shot Text-to-speech Synthesis
Zhiyong Chen, Xinnuo Li, Zhiqi Ai, Shugong Xu
Zero Shot Multimodal Input

September 4, 2024

Unified Framework with Consistency across Modalities for Human Activity Recognition
Tuyen Tran, Thao Minh Le, Hung Tran, Truyen Tran
Unified Framework Activity Recognition Strong Consistency Different Modality Multimodal Input Action Localization Group Activity Recognition Motion Recognition

August 21, 2024

Plug, Play, and Fuse: Zero-Shot Joint Decoding via Word-Level Re-ranking Across Diverse Vocabularies
Sai Koneru, Matthias Huck, Miriam Exel, Jan Niehues
Vision Model Multimodal Input Joint Encoder Literal Translation Document Re Ranking Large Vocabulary

August 20, 2024

Bidirectional Intent Communication: A Role for Large Foundation Models
Tim Schreiter, Rishi Hazra, Jens Rüppel, Andrey Rudenko
Foundation Model Non Humanoid Robot Human Robot Interaction Integral Role Autonomous Agent Multimodal Input Multimodal Foundation Model Intent Communication

August 6, 2024

Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization
Yanghai Zhang, Ye Liu, Shiwei Wu, Kai Zhang, Xukai Liu, Qi Liu, Enhong Chen
Multimodal Input Multimodal Summarization Entity Information

July 22, 2024

Multimodal Input Aids a Bayesian Model of Phonetic Learning
Sophia Zhi, Roger P. Levy, Stephan C. Meylan
Audio Visual Multimodal Input Acoustic Feature Bayesian Model Phoneme Recognition

July 17, 2024

E5-V: Universal Embeddings with Multimodal Large Language Models
Ting Jiang, Minghui Song, Zihan Zhang, Haizhen Huang, Weiwei Deng, Feng Sun, Qi Zhang, Deqing Wang, Fuzhen Zhuang
Multimodal Large Language Model Multimodal Input Universal Image Multimodal Embeddings Unified Multimodal

July 4, 2024

Investigating the Role of Instruction Variety and Task Difficulty in Robotic Manipulation Tasks
Amit Parekh, Nikolas Vitsakis, Alessandro Suglia, Ioannis Konstas
Integral Role Multimodal Model Manipulation Task Multimodal Transformer Multimodal Input Task Complexity Diverse Instruction High Probability Generalization

June 26, 2024

LLM-Driven Multimodal Opinion Expression Identification
Bonian Jia, Huiyao Chen, Yueheng Sun, Meishan Zhang, Min Zhang
Sentiment Analysis Text to Speech Multimodal Input Human Opinion

June 5, 2024

Wings: Learning Multimodal LLMs without Text-only Forgetting
Yi-Kai Zhang, Shiyin Lu, Yang Li, Yanqing Ma, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, De-Chuan Zhan, Han-Jia Ye
Multimodal Large Language Model Visual Question Answering Multimodal LLM Multimodal Input Multimodal Comprehension MLLM Attention Dual Purpose WING Text Removal

May 28, 2024

May 26, 2024

Implicit Multimodal Alignment: On the Generalization of Frozen LLMs to Multimodal Inputs
Mustafa Shukor, Matthieu Cord
Strong Generalization Large Multimodal Model Perceptual Quality Multimodal Input Multimodal Task Multimodal Alignment Frozen Large Language Model

May 23, 2024

From Text to Pixel: Advancing Long-Context Understanding in MLLMs
Yujie Lu, Xiujun Li, Tsu-Jui Fu, Miguel Eckstein, William Yang Wang
Large Language Model Text Modality Multimodal Large Language Model Tetromino Pixel Multimodal Input Input Sequence Multimodal Context Long Context Understanding

May 8, 2024

Large Language Model Enhanced Machine Learning Estimators for Classification
Yuhang Wu, Yingfei Wang, Chu Wang, Zeyu Zheng
Large Language Model Training Data Classification Code Supervised Learning Multimodal Input Prediction Performance

May 2, 2024

LLM-AD: Large Language Model based Audio Description System
Peng Chu, Jiang Wang, Andre Abrantes
Large Language Model Multimodal Phenomenon Multimodal Input Audio Description

April 11, 2024

MM-PhyQA: Multimodal Physics Question-Answering With Multi-Image CoT Prompting
Avinash Anand, Janak Kapuriya, Apoorv Singh, Jay Saraf, Naman Lal, Astha Verma, Rushali Gupta, Rajiv Shah
Multimodal Input Visual Prompting Physical Reasoning Multimodal Problem