Multimodal Representation

Multimodal representation learning aims to create unified representations of data from multiple sources (e.g., text, images, audio) to improve machine learning model performance and understanding. Current research focuses on developing effective fusion techniques, including contrastive learning, attention mechanisms, and various neural network architectures like transformers and autoencoders, to integrate these diverse modalities. This field is significant because it enables more robust and accurate models for various applications, such as sentiment analysis, visual question answering, and recommendation systems, particularly in scenarios with incomplete or noisy data. The development of effective multimodal representations is driving advancements across numerous domains, including healthcare, robotics, and multimedia analysis.

85papers

Papers

May 23, 2025

RoHyDR: Robust Hybrid Diffusion Recovery for Incomplete Multimodal Emotion Recognition
Yuehan Jin, Xiaoqing Liu, Yiyuan Yang, Zhiwen Yu, Tong Zhang, Kaixiang Yang
South China University of Technology●Pengcheng Laboratory●University of Oxford
Missing Modality Multimodal Emotion Recognition Multimodal Representation Emotion Recognition

May 20, 2025

Representation Learning for Semantic Alignment of Language, Audio, and Visual Modalities
Parthasaarathy Sudarsanam, Irene Martín-Morató, Tuomas Virtanen
Tampere University
Representation Learning Semantic Alignment Visual Modality Audio Driven Multimodal Representation Contrastive Learning Multimodal Alignment Human Language

May 19, 2025

Picturized and Recited with Dialects: A Multimodal Chinese Representation Framework for Sentiment Analysis of Classical Chinese Poetry
Xiaocong Du, Haoyu Pei, Haipeng Zhang
ShanghaiTech University
Sentiment Analysis Representation Model Regional Dialect Classical Chinese Poetry Multimodal Representation Multi Modal Contrastive Representation

May 15, 2025

CLIP Embeddings for AI-Generated Image Detection: A Few-Shot Study with Lightweight Classifier
Ziyang Ou
University of Rochester
CLIP Embeddings Multimodal Representation Lightweight Classifier AI Generated Image Image Detection Visual Embeddings Vision Language Model Image Classification

May 2, 2025

PREMISE: Matching-based Prediction for Accurate Review Recommendation
Wei Han, Hui Chen, Soujanya Poria
Singapore University of Technology and Design●National University of Singapore
Multimodal Task Movie Recommendation Multimodal Representation Human Prediction Multimodal Evaluation Downstream Forecasting Task Learning Based Matching

April 26, 2025

Feature Fusion Revisited: Multimodal CTR Prediction for MMCTR Challenge
Junjie Zhou
Nanjing University●Nanjing University
Multimodal Representation CTR Prediction HuMob Challenge Multimodal Large Language Model Multimodal Representation Learning Feature Fusion

March 28, 2025

RUNA: Object-level Out-of-Distribution Detection via Regional Uncertainty Alignment of Multimodal Representations
Bin Zhang, Jinggang Chen, Xiaoyang Qu, Guokuan Li, Kai Lu, Jiguang Wan, Jing Xiao, Jianzong Wang
Huazhong University of Science and Technology●Ltd
Object Detector Region Specific Pre Trained Vision Multimodal Representation Distribution Object

March 25, 2025

March 24, 2025

CoMP: Continual Multimodal Pre-training for Vision Foundation Models
Yitong Chen, Lingchen Meng, Wujian Peng, Zuxuan Wu, Yu-Gang Jiang
Fudan University●Shanghai Innovation Institute
Visual Input Multimodal Representation Vision Foundation Model Alignment Loss Multimodal Pre Continual Learning Multimodal Understanding

March 19, 2025

Continual Multimodal Contrastive Learning
Xiaohao Liu, Xiaobo Xia, See-Kiong Ng, Tat-Seng Chua
National University of Singapore
Multimodal Data Multimodal Representation Contrastive Learning

March 14, 2025

DecAlign: Hierarchical Cross-Modal Alignment for Decoupled Multimodal Representation Learning
Chengxuan Qian, Shuo Xing, Shawn Li, Yue Zhao, Zhengzhong Tu
Texas A&M University●University of Southern California
Multimodal Representation Learning Cross Modal Alignment Multimodal Representation Cross Modal Representation Learning Multimodal Phenomenon

March 9, 2025

Multimodal Emotion Recognition and Sentiment Analysis in Multi-Party Conversation Contexts
Aref Farhadipour, Hossein Ranjbar, Masoumeh Chapariniya, Teodora Vukovic, Sarah Ebling, Volker Dellwo
University of Zurich
Sentiment Feature Multimodal Representation Sentiment Analysis Emotion Recognition Conversational Context Multimodal Emotion Recognition Multimodal Phenomenon

March 6, 2025

ObjMST: An Object-Focused Multimodal Style Transfer Framework
Chanda Grover Kamra, Indra Deep Mastan, Debayan Gupta
Style Transfer Style Representation Image Style Transfer Multimodal Representation Style Extraction

March 4, 2025

Language-Guided Visual Perception Disentanglement for Image Quality Assessment and Conditional Image Generation
Zhichao Yang, Leida Li, Pengfei Chen, Jinjian Wu, Giuseppe Valenzise
Xidian University●Chongqing Three Gorges University●Paris-Saclay University
Conditional Image Generation Multimodal Representation Direct Assessment Perceptual Representation Image Quality Contrastive Vision Language Perceptual Information

March 2, 2025

Re-Imagining Multimodal Instruction Tuning: A Representation View
Yiyang Liu, James Chenhao Liang, Ruixiang Tang, Yugyung Lee, Majid Rabbani, Sohail Dianat, Raghuveer Rao, Lifu Huang, Dongfang Liu, Qifan Wang+1
University of Missouri - Kansas City●Rochester Institute of Technology●U.S. Naval Research Laboratory●Rutgers University●U.S. DEVCOM Army...+3
Instruction Tuning Parameter Efficient Fine Tuning Multimodal Representation

February 28, 2025

UoR-NCL at SemEval-2025 Task 1: Using Generative LLMs and CLIP Models for Multilingual Multimodal Idiomaticity Representation
Thanet Markchom, Tong Wu, Liting Huang, Huizhi Liang
University of Reading●Newcastle University
Level Representation Multimodal Representation Large Language Model Multilingual CLIP Idiomaticity Detection CLIP Model SemEval 2022 Task

February 27, 2025

Interpreting CLIP with Hierarchical Sparse Autoencoders
Vladimir Zaigrajew, Hubert Baniecki, Przemyslaw Biecek
Warsaw University of Technology●University of Warsaw
Single CLIP Hierarchical Variational Multimodal Representation Sparse Autoencoders Sparsity Increase Sparsity Constraint

February 26, 2025

On the Importance of Text Preprocessing for Multimodal Representation Learning and Pathology Report Generation
Ruben T. Lucassen, Tijn van de Luijtgaarden, Sander P.J. Moonemans, Gerben E. Breimer, Willeke A.M. Blokx, Mitko Veta
University Medical Center Utrecht●Eindhoven University of Technology
Importance Aware Multimodal Representation Pathology Data Text Processing Skin Lesion Vision Language Model LeArning Abstract

February 23, 2025

Contrastive Learning of English Language and Crystal Graphs for Multimodal Representation of Materials Knowledge
Yang Jeong Park, Mayank Kumaran, Chia-Wei Hsu, Elsa Olivetti, Ju Li
Massachusetts Institute of Technology●University of Illinois Urbana-Champaign
Material Science Chemical Structure Crystal Structure Artificial Intelligence Research Crystal Graph Multimodal Representation Known Molecule Contrastive Learning

Multimodal Representation

Papers

RoHyDR: Robust Hybrid Diffusion Recovery for Incomplete Multimodal Emotion Recognition

Representation Learning for Semantic Alignment of Language, Audio, and Visual Modalities

Picturized and Recited with Dialects: A Multimodal Chinese Representation Framework for Sentiment Analysis of Classical Chinese Poetry

CLIP Embeddings for AI-Generated Image Detection: A Few-Shot Study with Lightweight Classifier

PREMISE: Matching-based Prediction for Accurate Review Recommendation

Feature Fusion Revisited: Multimodal CTR Prediction for MMCTR Challenge

RUNA: Object-level Out-of-Distribution Detection via Regional Uncertainty Alignment of Multimodal Representations

Why Representation Engineering Works: A Theoretical and Empirical Study in Vision-Language Models

A-MESS: Anchor based Multimodal Embedding with Semantic Synchronization for Multimodal Intent Recognition

CoMP: Continual Multimodal Pre-training for Vision Foundation Models

Continual Multimodal Contrastive Learning

DecAlign: Hierarchical Cross-Modal Alignment for Decoupled Multimodal Representation Learning

Multimodal Emotion Recognition and Sentiment Analysis in Multi-Party Conversation Contexts

ObjMST: An Object-Focused Multimodal Style Transfer Framework

Language-Guided Visual Perception Disentanglement for Image Quality Assessment and Conditional Image Generation

Re-Imagining Multimodal Instruction Tuning: A Representation View

UoR-NCL at SemEval-2025 Task 1: Using Generative LLMs and CLIP Models for Multilingual Multimodal Idiomaticity Representation

Interpreting CLIP with Hierarchical Sparse Autoencoders

On the Importance of Text Preprocessing for Multimodal Representation Learning and Pathology Report Generation

Contrastive Learning of English Language and Crystal Graphs for Multimodal Representation of Materials Knowledge