Multimodal Input

Multimodal input processing focuses on enabling artificial intelligence systems to understand and integrate information from multiple sources like text, images, audio, and video, aiming to achieve a more comprehensive and human-like understanding. Current research emphasizes improving the robustness and efficiency of multimodal large language models (MLLMs), addressing issues like hallucination, knowledge conflicts between modalities, and the handling of missing or incomplete data through techniques such as causal inference, active perception evaluation, and masked modality projection. This field is significant because it underpins advancements in various applications, including robotics, personalized healthcare, and improved accessibility of information, by enabling more natural and effective human-computer interaction.

Papers

October 17, 2023

EXMODD: An EXplanatory Multimodal Open-Domain Dialogue dataset
Hang Yin, Pinren Lu, Ziang Li, Bin Sun, Kan Li
High Quality Multimodal Input

September 29, 2023

The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)
Zhengyuan Yang, Linjie Li, Kevin Lin, Jianfeng Wang, Chung-Ching Lin, Zicheng Liu, Lijuan Wang
Large Multimodal Model Multimodal Input Multimodal Task Multimodal Foundation Model

September 13, 2023

Getting More for Less: Using Weak Labels and AV-Mixup for Robust Audio-Visual Speaker Verification
Anith Selvakumar, Homa Fashandi
Audio Visual Speaker Verification Multimodal Input Speaker Representation Weak Label

September 11, 2023

Adaptive User-centered Neuro-symbolic Learning for Multimodal Interaction with Autonomous Systems
Amr Gomaa, Michael Feld
Artificial Intelligence Autonomous System Multimodal Input Multimodal Communication Neuro Symbolic Learning Implicit Learning Subsymbolic AI

September 5, 2023

Exchanging-based Multimodal Fusion with Transformer
Renyu Zhu, Chengcheng Han, Yong Qian, Qiushi Sun, Xiang Li, Ming Gao, Xuezhi Cao, Yunsen Xian
Transformer Based Multimodal Phenomenon Multimodal Fusion Multimodal Input Multimodal Fusion Model

August 31, 2023

TouchStone: Evaluating Vision-Language Models by Language Models
Shuai Bai, Shusheng Yang, Jinze Bai, Peng Wang, Xingxuan Zhang, Junyang Lin, Xinggang Wang, Chang Zhou, Jingren Zhou
Language Model Vision Language Model Large Vision Language Model Multimodal Input Multimodal Dialogue Visual Dialog Dialogue Quality Soft Touch

August 8, 2023

OmniDataComposer: A Unified Data Structure for Multimodal Data Fusion and Infinite Data Generation
Dongyang Yu, Shihao Wang, Yuan Fang, Wangpeng An
Cross Modal Multimodal Learning Data Stream Multimodal Input Data Modality Multimodal Data Fusion Unified Data

July 11, 2023

Emu: Generative Pretraining in Multimodality
Quan Sun, Qiying Yu, Yufeng Cui, Fan Zhang, Xiaosong Zhang, Yueze Wang, Hongcheng Gao, Jingjing Liu, Tiejun Huang, Xinlong Wang
Large Multimodal Model Multimodal Input Generative Pre Training Image to Text Multimodal Capability

July 5, 2023

What Matters in Training a GPT4-Style Language Model with Multimodal Inputs?
Yan Zeng, Hanbo Zhang, Jiani Zheng, Jiangnan Xia, Guoqiang Wei, Yang Wei, Yuchen Zhang, Tao Kong
Language Model Training Data Multimodal Input Proper Issue Labeling Multi Modal Generation Multi Modal Understanding

June 1, 2023

A Transformer-based representation-learning model with unified processing of multimodal input for clinical diagnostics
Hong-Yu Zhou, Yizhou Yu, Chengdi Wang, Shu Zhang, Yuanxu Gao, Jia Pan, Jun Shao, Guangming Lu, Kang Zhang, Weimin Li
Transformer Based Medical Image Multimodal Information Multimodal Transformer Multimodal Input Disease Diagnostics Multimodal Diagnosis Processing Framework

May 25, 2023

May 17, 2023

Object Segmentation by Mining Cross-Modal Semantics
Zongwei Wu, Jingjing Wang, Zhuyun Zhou, Zhaochong An, Qiuping Jiang, Cédric Demonceaux, Guolei Sun, Radu Timofte
Cross Modal Object Segmentation Multimodal Input Mining Complex Multimodal Feature

May 10, 2023

Alternating Gradient Descent and Mixture-of-Experts for Integrated Multimodal Perception
Hassan Akbari, Dan Kondratyuk, Yin Cui, Rachel Hornung, Huisheng Wang, Hartwig Adam
Mixture of Expert Multimodal Input Modality Specific Multimodal Perception Modality Agnostic Transformer Encoder

March 27, 2023

Revisiting Multimodal Representation in Contrastive Learning: From Patch and Token Embeddings to Finite Discrete Tokens
Yuxiao Chen, Jianbo Yuan, Yu Tian, Shijie Geng, Xinyu Li, Ding Zhou, Dimitris N. Metaxas, Hongxia Yang
Contrastive Learning Cross Modal Cross Modal Alignment Multimodal Representation Multimodal Input Contrastive Vision Language Single Simple Patch Discrete Token

March 15, 2023

Watch or Listen: Robust Audio-Visual Speech Recognition with Visual Corruption Modeling and Reliability Scoring
Joanna Hong, Minsu Kim, Jeongsoo Choi, Yong Man Ro
Multimodal Input Audio Visual Speech Recognition Image Corruption Predictive Reliability Input Corruption

March 8, 2023

Interpretable Visual Question Answering Referring to Outside Knowledge
He Zhu, Ren Togo, Takahiro Ogawa, Miki Haseyama
Line by Line Explanation Visual Question Multimodal Input External Knowledge Plausible Explanation Text VQA

February 28, 2023

Which One Are You Referring To? Multimodal Object Identification in Situated Dialogue
Holy Lovenia, Samuel Cahyawijaya, Pascale Fung
Multimodal Input Dialogue Coherence Situated Reasoning Large Scale Dialogue Multimodal Object

January 31, 2023

Grounding Language Models to Images for Multimodal Inputs and Outputs
Jing Yu Koh, Ruslan Salakhutdinov, Daniel Fried
Language Model Structured Output Multimodal Input Large Scale Pretraining Text Only Language Model

December 22, 2022

Emotion Recognition with Pre-Trained Transformers Using Multimodal Signals
Juan Vazquez-Rodriguez, Grégoire Lefebvre, Julien Cumin, James L Crowley
Emotion Recognition Pre Trained Transformer Multimodal Emotion Recognition Multimodal Input Physiological Signal Transformer Based Approach Multimodal Signal