Different Modality

Multimodal learning focuses on integrating information from diverse data sources (e.g., text, images, audio) to improve model performance and robustness. Current research emphasizes efficient fusion techniques, addressing challenges like missing modalities through methods such as contrastive learning, modality-aware adaptation, and progressive alignment using lightweight architectures like OneEncoder. This field is significant for advancing AI capabilities in various applications, including medical diagnosis, visual question answering, and human activity recognition, by enabling more comprehensive and reliable analysis of complex data.

Papers

December 31, 2023

AllSpark: A Multimodal Spatio-Temporal General Intelligence Model with Thirteen Modalities
Run Shao, Cheng Yang, Qiujun Li, Qing Zhu, Yongjun Zhang, YanSheng Li, Yu Liu, Yong Tang, Dapeng Liu, Shizhong Yang, Haifeng Li
Multimodal Data Different Modality Multimodal AI Spatio tempOral Unified Multimodal

December 21, 2023

Navigating the Structured What-If Spaces: Counterfactual Generation via Structured Diffusion
Nishtha Madaan, Srikanta Bedathur
Generative Modeling Counterfactual Explanation High Quality Counterfactuals Different Modality Counterfactual Generation Structured Diffusion

December 16, 2023

RedCore: Relative Advantage Aware Cross-modal Representation Learning for Missing Modalities with Imbalanced Missing Rates
Jun Sun, Xinxin Zhang, Shoukang Han, Yu-ping Ruan, Taihao Li
Multimodal Learning Different Modality Imbalanced Classification Social Awareness Variational Information Bottleneck Cross Modal Representation Learning Heavy Metal

December 6, 2023

OneLLM: One Framework to Align All Modalities with Language
Jiaming Han, Kaixiong Gong, Yiyuan Zhang, Jiaqi Wang, Kaipeng Zhang, Dahua Lin, Yu Qiao, Peng Gao, Xiangyu Yue
New Framework Multimodal Large Language Model Human Language Different Modality Modality Specific LD Align Multimodal Understanding Multimodal Encoder

November 16, 2023

Which Modality should I use -- Text, Motif, or Image? : Understanding Graphs with Large Language Models
Debarati Das, Ishaan Gupta, Jaideep Srivastava, Dongyeop Kang
Vision Language Model Graph Drawing Text Modality Different Modality Graph Data Jamdani Motif Graph Understanding

November 10, 2023

How to Bridge the Gap between Modalities: A Comprehensive Survey on Multimodal Large Language Model
Shezheng Song, Xiaopeng Li, Shasha Li, Shan Zhao, Jie Yu, Jun Ma, Xiaoguang Mao, Weimin Zhang
Multimodal Large Language Model Comprehensive Survey Multimodal Data Different Modality Modality Alignment

November 9, 2023

On the Behavior of Audio-Visual Fusion Architectures in Identity Verification Tasks
Daniel Claborne, Eric Slyman, Karl Pazdernik
Audio Visual Visual Representation BEHAVIOR Explanation Different Modality Identity Verification Single Modality Output Embeddings

November 2, 2023

Modular Blended Attention Network for Video Question Answering
Mingjie Zhou
Different Modality Video Question Answering Multimodal Machine Learning Informative Representation

October 11, 2023

October 6, 2023

Multimodal Identification of Alzheimer's Disease: A Review
Guian Fang, Mengsha Liu, Yi Zhong, Zhuolin Zhang, Jiehui Huang, Zhenchao Tang, Calvin Yu-Chian Chen
Narrative Review Alzheimer'S Disease Multi Modality Common Disease Different Modality Imaging Modality Modality Combination

September 25, 2023

Tuning Multi-mode Token-level Prompt Alignment across Modalities
Dongsheng Wang, Miaoge Li, Xinyang Liu, MingSheng Xu, Bo Chen, Hanwang Zhang
Vision Language Model Open World Different Modality Visual Concept Mode Matching Prompt Alignment

September 21, 2023

Bridging the Gaps of Both Modality and Language: Synchronous Bilingual CTC for Speech Translation and Speech Recognition
Chen Xu, Xiaoqian Liu, Erfeng He, Yuhao Zhang, Qianqian Dong, Tong Xiao, Jingbo Zhu, Dapeng Man, Wu Yang
Speech Recognition Human Language Speech Translation Different Modality Connectionist Temporal Classification Cross Lingual Learning Speech Recognition Performance

August 16, 2023

Explainable AI for clinical risk prediction: a survey of concepts, methods, and modalities
Munib Mesinovic, Peter Watkinson, Tingting Zhu
Inherent Interpretability Explainable AI NCD Method High Explainability Different Modality Concept Identification Clinical Prediction Clinical Prediction Model Scientific Synthesis

August 8, 2023

Revisiting Disentanglement and Fusion on Modality and Context in Conversational Multimodal Emotion Recognition
Bobo Li, Hao Fei, Lizi Liao, Yu Zhao, Chong Teng, Tat-Seng Chua, Donghong Ji, Fei Li
Context Information Multimodal Phenomenon Hybrid Fusion Disentanglement Capability Different Modality Multimodal Feature Multimodal Dialogue Multimodal Context Emotion Recognition in Conversation

July 18, 2023

De Re and De Dicto Knowledge in Egocentric Setting
Pavel Naumov, Anna Ovchinnikova
Different Modality Possible World

July 11, 2023

A Modal Logic for Explaining some Graph Neural Networks
Pierre Nunn, François Schwarzentruber
Graph Neural Network Different Modality Satisfiability Problem Modal Logic

June 12, 2023

Enhancing COVID-19 Diagnosis through Vision Transformer-Based Analysis of Chest X-ray Images
Sultan Zavrak
Covid 19 Vision Paper Different Modality Chest X Ray Image X Ray Image Transformer Based Approach COVID 19 Diagnosis Ternary Classification

June 7, 2023

Multimodal Fusion Interactions: A Study of Human and Automatic Quantification
Paul Pu Liang, Yun Cheng, Ruslan Salakhutdinov, Louis-Philippe Morency
Study Feature Human Generated Multimodal Fusion Different Modality Multimodal Interaction

May 25, 2023

ChatBridge: Bridging Modalities with Large Language Model as a Language Catalyst
Zijia Zhao, Longteng Guo, Tongtian Yue, Sihan Chen, Shuai Shao, Xinxin Zhu, Zehuan Yuan, Jing Liu
Large Language Model Zero Shot Different Modality Multimodal Input Multimodal Task Multimodal Instruction

Different Modality

Papers

AllSpark: A Multimodal Spatio-Temporal General Intelligence Model with Thirteen Modalities

Navigating the Structured What-If Spaces: Counterfactual Generation via Structured Diffusion

RedCore: Relative Advantage Aware Cross-modal Representation Learning for Missing Modalities with Imbalanced Missing Rates

OneLLM: One Framework to Align All Modalities with Language

Which Modality should I use -- Text, Motif, or Image? : Understanding Graphs with Large Language Models

How to Bridge the Gap between Modalities: A Comprehensive Survey on Multimodal Large Language Model

On the Behavior of Audio-Visual Fusion Architectures in Identity Verification Tasks

Modular Blended Attention Network for Video Question Answering

Learning a Cross-modality Anomaly Detector for Remote Sensing Imagery

Synthesizing Missing MRI Sequences from Available Modalities using Generative Adversarial Networks in BraTS Dataset

Multimodal Identification of Alzheimer's Disease: A Review

Tuning Multi-mode Token-level Prompt Alignment across Modalities

Bridging the Gaps of Both Modality and Language: Synchronous Bilingual CTC for Speech Translation and Speech Recognition

Explainable AI for clinical risk prediction: a survey of concepts, methods, and modalities

Revisiting Disentanglement and Fusion on Modality and Context in Conversational Multimodal Emotion Recognition

De Re and De Dicto Knowledge in Egocentric Setting

A Modal Logic for Explaining some Graph Neural Networks

Enhancing COVID-19 Diagnosis through Vision Transformer-Based Analysis of Chest X-ray Images

Multimodal Fusion Interactions: A Study of Human and Automatic Quantification

ChatBridge: Bridging Modalities with Large Language Model as a Language Catalyst