Multimodal Alignment

Multimodal alignment focuses on integrating information from different data types (e.g., text, images, audio) to create unified representations, improving the understanding and analysis of complex systems. Current research emphasizes developing efficient algorithms and model architectures, such as Mixture-of-Experts (MoE) and contrastive learning methods, to achieve robust alignment even with limited paired data or noisy inputs. This field is crucial for advancing various applications, including medical image analysis, video understanding, and enhanced large language model capabilities across diverse modalities, ultimately leading to more powerful and versatile AI systems.

Papers

June 9, 2024

Set-CLIP: Exploring Aligned Semantic From Low-Alignment Multimodal Data Through A Distribution View
Zijia Song, Zelin Zang, Yelin Wang, Guozheng Yang, Kaicheng yu, Wanyu Chen, Miaoyu Wang, Stan Z. Li
Multimodal Data Multimodal Fusion Semantic Description Semantic Alignment Multimodal Alignment Soft Alignment

May 26, 2024

Implicit Multimodal Alignment: On the Generalization of Frozen LLMs to Multimodal Inputs
Mustafa Shukor, Matthieu Cord
Strong Generalization Large Multimodal Model Perceptual Quality Multimodal Input Multimodal Task Multimodal Alignment Frozen Large Language Model

April 25, 2024

OpenDlign: Enhancing Open-World 3D Learning with Depth-Aligned Images
Ye Mao, Junpeng Jing, Krystian Mikolajczyk
Zero Shot Depth Map 3d Representation Multimodal Alignment 3D Representation Learning

April 16, 2024

Med-MoE: Mixture of Domain-Specific Experts for Lightweight Medical Vision-Language Models
Songtao Jiang, Tuo Zheng, Yan Zhang, Yeying Jin, Li Yuan, Zuozhu Liu
Vision Language Model Multimodal Large Language Model Mixture Component Lightweight High Domain Expert Multimodal Alignment Medical Generative

March 13, 2024

MolBind: Multimodal Alignment of Language, Molecules, and Proteins
Teng Xiao, Chao Cui, Huaisheng Zhu, Vasant G. Honavar
Contrastive Learning Human Language Molecular Graph Multi Modality Known Molecule Multi Modal Learning Multimodal Alignment Non Structural Protein Cross Modal Semantic Alignment

March 11, 2024

Process signature-driven high spatio-temporal resolution alignment of multimodal data
Abhishek Hanchate, Himanshu Balhara, Vishal S. Chindepalli, Satish T. S. Bukkapatnam
Spatio Temporal Multimodal Data Complex Process Temporal Resolution Multimodal Alignment

March 8, 2024

Unlocking the Potential of Multimodal Unified Discrete Representation through Training-Free Codebook Optimization and Hierarchical Alignment
Hai Huang, Yan Xia, Shengpeng Ji, Shulei Wang, Hanting Wang, Jieming Zhu, Zhenhua Dong, Zhou Zhao
Cross Modal Full Potential Training Free Multimodal Alignment Unified Multimodal Hierarchical Alignment Modal Disentanglement

February 20, 2024

A Touch, Vision, and Language Dataset for Multimodal Alignment
Letian Fu, Gaurav Datta, Huang Huang, William Chung-Ho Panitch, Jaimyn Drake, Joseph Ortiz, Mustafa Mukadam, Mike Lambeta, Roberto Calandra, Ken Goldberg
Vision Language Model Vision Paper Human Touch Multimodal Alignment Language Dataset Visuo Tactile Touch Language Vision

February 19, 2024

The Revolution of Multimodal Large Language Models: A Survey
Davide Caffagni, Federico Cocchi, Luca Barsellotti, Nicholas Moratelli, Sara Sarto, Lorenzo Baraldi, Lorenzo Baraldi, Marcella Cornia, Rita Cucchiara
Large Language Model Timely Survey Multimodal Large Language Model Visual Grounding Multimodal Alignment

February 6, 2024

Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback
Daechul Ahn, Yura Choi, Youngjae Yu, Dongyeop Kang, Jonghyun Choi
Reinforcement Learning Gameplay Video Large Multimodal Model Multimodal AI Multimodal Alignment AI Feedback

January 4, 2024

SyCoCa: Symmetrizing Contrastive Captioners with Attentive Masking for Multimodal Alignment
Ziping Ma, Furong Xu, Jian Liu, Ming Yang, Qingpei Guo
Contrastive Language Image Image Text Multimodal Alignment Attention Masking Contrastive Captioners

December 15, 2023

Data-Efficient Multimodal Fusion on a Single GPU
Noël Vouitsis, Zhaoyan Liu, Satya Krishna Gorti, Valentin Villecroze, Jesse C. Cresswell, Guangwei Yu, Gabriel Loaiza-Ganem, Maksims Volkovs
Multimodal Model Single GPU Multimodal Input Multimodal Alignment Unimodal Encoders Efficient Multimodal Fusion

December 4, 2023

Expand BERT Representation with Visual Information via Grounded Language Learning with Multimodal Partial Alignment
Cong-Duy Nguyen, The-Anh Vu-Le, Thong Nguyen, Tho Quan, Luu Anh Tuan
Language Model Multimodal Alignment Grounded Language Visually Grounded

November 23, 2023

Molecular Identification and Peak Assignment: Leveraging Multi-Level Multimodal Alignment on NMR
Hao Xu, Zhengyang Zhou, Pengyu Hong
Magnetic Resonance Multimodal Alignment Molecule Text Theoretical Peak Performance Analysis Nuclear Magnetic Resonance Chemical Shift

September 3, 2023

Large AI Model Empowered Multimodal Semantic Communications
Feibo Jiang, Yubo Peng, Li Dong, Kezhi Wang, Kun Yang, Cunhua Pan, Xiaohu You
Multimodal Phenomenon Semantic Communication Multimodal Alignment Multimodal Signal

August 24, 2023

Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language Pretraining?
Fei Wang, Liang Ding, Jun Rao, Ye Liu, Li Shen, Changxing Ding
Vision Language Multimodal Phenomenon Semantic Structure Visual Language Multimodal Alignment

August 22, 2023

MEGA: Multimodal Alignment Aggregation and Distillation For Cinematic Video Segmentation
Najmeh Sadoughi, Xinyu Li, Avijit Vajpayee, David Fan, Bing Shuai, Hector Santos-Villalobos, Vimal Bhat, Rohith MV
Mutual Distillation Temporal Alignment Multimodal Alignment Alignment Distillation

August 14, 2023

ICPC: Instance-Conditioned Prompting with Contrastive Learning for Semantic Segmentation
Chaohui Yu, Qiang Zhou, Zhibin Wang, Fan Wang
Contrastive Learning Semantic Segmentation Multimodal Alignment Text Alignment Contrastive Prompt Learning

May 23, 2023

Faster Video Moment Retrieval with Point-Level Supervision
Xun Jiang, Zailei Zhou, Xing Xu, Yang Yang, Guoqing Wang, Heng Tao Shen
Video Moment Retrieval Multimodal Alignment Moment Retrieval Point Supervision Temporal Annotation

March 24, 2023

Aligning Step-by-Step Instructional Diagrams to Video Demonstrations
Jiahao Zhang, Anoop Cherian, Yanbin Liu, Yizhak Ben-Shabat, Cristian Rodriguez, Stephen Gould
Contrastive Learning Ground Truth Assembly Task Video Demonstration Visual Instruction Multimodal Alignment

Multimodal Alignment

Papers

Set-CLIP: Exploring Aligned Semantic From Low-Alignment Multimodal Data Through A Distribution View

Implicit Multimodal Alignment: On the Generalization of Frozen LLMs to Multimodal Inputs

OpenDlign: Enhancing Open-World 3D Learning with Depth-Aligned Images

Med-MoE: Mixture of Domain-Specific Experts for Lightweight Medical Vision-Language Models

MolBind: Multimodal Alignment of Language, Molecules, and Proteins

Process signature-driven high spatio-temporal resolution alignment of multimodal data

Unlocking the Potential of Multimodal Unified Discrete Representation through Training-Free Codebook Optimization and Hierarchical Alignment

A Touch, Vision, and Language Dataset for Multimodal Alignment

The Revolution of Multimodal Large Language Models: A Survey

Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback

SyCoCa: Symmetrizing Contrastive Captioners with Attentive Masking for Multimodal Alignment

Data-Efficient Multimodal Fusion on a Single GPU

Expand BERT Representation with Visual Information via Grounded Language Learning with Multimodal Partial Alignment

Molecular Identification and Peak Assignment: Leveraging Multi-Level Multimodal Alignment on NMR

Large AI Model Empowered Multimodal Semantic Communications

Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language Pretraining?

MEGA: Multimodal Alignment Aggregation and Distillation For Cinematic Video Segmentation

ICPC: Instance-Conditioned Prompting with Contrastive Learning for Semantic Segmentation

Faster Video Moment Retrieval with Point-Level Supervision

Aligning Step-by-Step Instructional Diagrams to Video Demonstrations