Multimodal Model

Multimodal models integrate information from multiple sources like text, images, audio, and video to achieve a more comprehensive understanding than unimodal approaches. Current research focuses on improving model interpretability, addressing biases, enhancing robustness against adversarial attacks and missing data, and developing efficient architectures like transformers and state-space models for various tasks including image captioning, question answering, and sentiment analysis. These advancements are significant for applications ranging from healthcare and robotics to more general-purpose AI systems, driving progress in both fundamental understanding and practical deployment of AI.

Papers

October 9, 2024

Deep Correlated Prompting for Visual Recognition with Missing Modalities
Lianyu Hu, Tongkai Shi, Wei Feng, Fanhua Shang, Liang Wan
Large Multimodal Model Multimodal Model Visual Recognition Missing Modality Negative Correlation

October 8, 2024

Temporal Image Caption Retrieval Competition -- Description and Results
Jakub Pokrywka, Piotr Wierzchoń, Kornel Weryszko, Krzysztof Jassem
Text Modality Multimodal Model Key Result Description Library Image Text Retrieval Multimodal Problem Image Caption Retrieval

October 7, 2024

RespLLM: Unifying Audio and Text with Multimodal LLMs for Generalized Respiratory Health Prediction
Yuwei Zhang, Tong Xia, Aaqib Saeed, Cecilia Mascolo
Text Modality Multimodal Model Multimodal LLM Audio Driven Respiratory Sound Health Risk Prediction

October 6, 2024

October 4, 2024

Bridging the Gap between Text, Audio, Image, and Any Sequence: A Novel Approach using Gloss-based Annotation
Sen Fang, Yalin Feng, Sizhou Chen, Xiaofeng Zhang, Teik Toe Teoh
Text Modality Multimodal Model Audio Driven Sequence of Sequence Multimodal Representation Multimodal Understanding Gloss Translation Multi Modal Training

October 3, 2024

October 2, 2024

September 28, 2024

September 26, 2024

MultiClimate: Multimodal Stance Detection on Climate Change Videos
Jiawen Wang, Longfei Zuo, Siyao Peng, Barbara Plank
Multimodal Data Multimodal Model Stance Detection

September 20, 2024

September 19, 2024

TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation
Junjie Wen, Yichen Zhu, Jinming Li, Minjie Zhu, Kun Wu, Zhiyuan Xu, Ning Liu, Ran Cheng, Chaomin Shen, Yaxin Peng, Feifei Feng, Jian Tang
Multimodal Model Robotic Manipulation Multimodal Pre Vision Language Action

September 16, 2024

MusicLIME: Explainable Multimodal Music Understanding
Theodoros Sotirou, Vassilis Lyberatos, Orfeas Menis Mastromichalakis, Giorgos Stamou
High Explainability Multimodal Model Cross Modal Music Feature Importance Explanation

September 14, 2024

Keypoints-Integrated Instruction-Following Data Generation for Enhanced Human Pose Understanding in Multimodal Models
Dewen Zhang, Wangpeng An, Hayaru Shouno
Pose Estimation Multimodal Model Human Pose Estimation Visual Task Visual Understanding Task

Multimodal Model

Papers

Deep Correlated Prompting for Visual Recognition with Missing Modalities

Temporal Image Caption Retrieval Competition -- Description and Results

RespLLM: Unifying Audio and Text with Multimodal LLMs for Generalized Respiratory Health Prediction

VISTA: A Visual and Textual Attention Dataset for Interpreting Multimodal Models

UniMuMo: Unified Text, Music and Motion Generation

Bridging the Gap between Text, Audio, Image, and Any Sequence: A Novel Approach using Gloss-based Annotation

LLaVA-Critic: Learning to Evaluate Multimodal Models

Plots Unlock Time-Series Understanding in Multimodal Models

SHAP-CAT: A interpretable multi-modal framework enhancing WSI classification via virtual staining and shapley-value-based multimodal fusion

Backdooring Vision-Language Models with Out-Of-Distribution Data

OCC-MLLM:Empowering Multimodal Large Language Model For the Understanding of Occluded Objects

FairPIVARA: Reducing and Assessing Biases in CLIP-Based Multimodal Models

From Unimodal to Multimodal: Scaling up Projectors to Align Modalities

TrojVLM: Backdoor Attack Against Vision Language Models

MultiClimate: Multimodal Stance Detection on Climate Change Videos

Brain-Cognition Fingerprinting via Graph-GCCA with Contrastive Learning

A Novel Adaptive Fine-Tuning Algorithm for Multimodal Models: Self-Optimizing Classification and Selection of High-Quality Datasets in Remote Sensing

TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation

MusicLIME: Explainable Multimodal Music Understanding

Keypoints-Integrated Instruction-Following Data Generation for Enhanced Human Pose Understanding in Multimodal Models