Modality Specific

Modality-specific research focuses on effectively integrating information from diverse data sources (e.g., text, images, audio, video) in machine learning models, aiming to leverage the unique strengths of each modality while mitigating their individual limitations. Current research emphasizes developing advanced fusion techniques, including mixture-of-experts models and attention mechanisms, to create robust multimodal representations and improve performance on tasks like classification, generation, and object tracking. This field is crucial for advancing artificial intelligence, particularly in applications requiring nuanced understanding of complex real-world scenarios, such as medical diagnosis, autonomous driving, and affective computing. The development of efficient and effective modality-specific methods is driving progress in various domains by enabling more accurate and robust AI systems.

Papers

August 20, 2024

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model
Chunting Zhou, Lili Yu, Arun Babu, Kushal Tirumala, Michihiro Yasunaga, Leonid Shamis, Jacob Kahn, Xuezhe Ma, Luke Zettlemoyer, Omer Levy
Language Model Multi Modal Model Modality Specific Blood Transfusion Cross Modal Benchmark

August 13, 2024

Prioritizing Modalities: Flexible Importance Scheduling in Federated Multimodal Learning
Jieming Bian, Lei Wang, Jie Xu
Federated Learning Multi Modal Modality Specific Modality Selection Priority Driven Scheduling Enhancement

August 9, 2024

DeepInteraction++: Multi-Modality Interaction for Autonomous Driving
Zeyu Yang, Nan Song, Wei Li, Xiatian Zhu, Li Zhang, Philip H. S. Torr
Autonomous Driving Modality Specific Multimodal Interaction Multi Modal Representation Learning Multi Modal Fusion Strategy

August 5, 2024

A Two-Stage Progressive Pre-training using Multi-Modal Contrastive Masked Autoencoders
Muhammad Abdullah Jamal, Omid Mohareri
Contrastive Learning Supervised Autoencoder Modality Specific Autoencoder Architecture Proximal Curriculum Multi Modal Masked Autoencoders

August 2, 2024

A Systematic Review of Intermediate Fusion in Multimodal Deep Learning for Biomedical Applications
Valerio Guarrasi, Fatih Aksu, Camillo Maria Caruso, Francesco Di Feola, Aurora Rofena, Filippo Ruffini, Paolo Soda
Multimodal Model Systematic Review Modality Specific Multimodal Deep Learning Biomedical Application Intermediate Fusion

July 31, 2024

MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts
Xi Victoria Lin, Akshat Shrivastava, Liang Luo, Srinivasan Iyer, Mike Lewis, Gargi Ghosh, Luke Zettlemoyer, Armen Aghajanyan
Mixture Component Mixture of Expert Modality Specific Multimodal AI Effective Fusion Multi Modal Pre Training Modality Aware

July 8, 2024

GTP-4o: Modality-prompted Heterogeneous Graph Learning for Omni-modal Biomedical Representation
Chenxin Li, Xinyu Liu, Cheng Wang, Yifan Liu, Weihao Yu, Jing Shao, Yixuan Yuan
Cross Modal Multimodal Learning Modality Specific Modal Feature Multi Modal Representation Heterogeneous Graph Learning

July 6, 2024

Completed Feature Disentanglement Learning for Multimodal MRIs Analysis
Tianling Liu, Hongying Liu, Fanhua Shang, Lequan Yu, Tong Han, Liang Wan
Modality Specific Feature Disentanglement Multi Modal MRI

June 27, 2024

Enhancing Continual Learning in Visual Question Answering with Modality-Aware Feature Distillation
Malvina Nikandrou, Georgios Pantazopoulos, Ioannis Konstas, Alessandro Suglia
Continual LEArning Continual Learning Visual Question Modality Specific Multimodal Distillation

May 29, 2024

X-VILA: Cross-Modality Alignment for Large Language Model
Hanrong Ye, De-An Huang, Yao Lu, Zhiding Yu, Wei Ping, Andrew Tao, Jan Kautz, Song Han, Dan Xu, Pavlo Molchanov, Hongxu Yin
Large Language Model Modality Specific Cross Modality Alignment Cross Modal Understanding

May 28, 2024

XTrack: Multimodal Training Boosts RGB-X Video Object Trackers
Yuedong Tan, Zongwei Wu, Yuqian Fu, Zhuyun Zhou, Guolei Sun, Eduard Zamfi, Chao Ma, Danda Pani Paudel, Luc Van Gool, Radu Timofte
Vision Model Object Tracking Modality Specific Single Object Tracking Generalist Learner Modal Regression RGB D Tracking

May 18, 2024

Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts
Yunxin Li, Shenyuan Jiang, Baotian Hu, Longyue Wang, Wanqi Zhong, Wenhan Luo, Lin Ma, Min Zhang
Multimodal Large Language Model Mixture Component Expert Knowledge Multimodal LLM Unified Alignment Modality Specific Cross Modality Alignment

May 4, 2024

Beyond Unimodal Learning: The Importance of Integrating Multiple Modalities for Lifelong Learning
Fahad Sarfraz, Bahram Zonooz, Elahe Arani
Continual LEArning Continual Learning Importance Aware Multi Modality Lifelong Learning Multi Modal Model Modality Specific Unimodal Learning Modal Integration

April 3, 2024

Rethinking Pruning for Vision-Language Models: Strategies for Effective Sparsity and Performance Restoration
Shwai He, Ang Li, Tianlong Chen
Vision Language Model General Strategy Modality Specific Sparse Model Restoration Quality Pruning Performance Unstructured Sparsity

March 27, 2024

H2ASeg: Hierarchical Adaptive Interaction and Weighting Network for Tumor Segmentation in PET/CT Images
Jinpeng Lu, Jingyun Chen, Linghan Cai, Songhan Jiang, Yongbing Zhang
Tumor Segmentation CT Image Cross Modal Attention Modality Specific Modality Fusion Q Seg Cross Modal Correlation Hierarchical Interaction

March 19, 2024

SUN Team's Contribution to ABAW 2024 Competition: Audio-visual Valence-Arousal Estimation and Expression Recognition
Denis Dresvyanskiy, Maxim Markitantov, Jiawei Yu, Peitong Li, Heysem Kaya, Alexey Karpov
Emotion Recognition Expression Recognition Modality Specific Client Contribution Valence Arousal Estimation Automatic Emotion Recognition Dimensional Emotion ABAW Challenge

March 18, 2024

Federated Modality-specific Encoders and Multimodal Anchors for Personalized Brain Tumor Segmentation
Qian Dai, Dong Wei, Hong Liu, Jinghan Sun, Liansheng Wang, Yefeng Zheng
Federated Learning Multimodal Representation Modality Specific Multi Modality Imaging Modality Heterogeneity

March 15, 2024

Towards Unified Multi-Modal Personalization: Large Vision-Language Models for Generative Recommendation and Beyond
Tianxin Wei, Bowen Jin, Ruirui Li, Hansi Zeng, Zhengyang Wang, Jianhui Sun, Qingyu Yin, Hanqing Lu, Suhang Wang, Jingrui He, Xianfeng Tang
Large Vision Language Model Multi Modal Modality Specific Scalable Personalization Generative Recommendation Personalization Task

March 10, 2024

Disentangling shared and private latent factors in multimodal Variational Autoencoders
Kaspar Märtens, Christopher Yau
Multimodal Data Modality Specific Latent Factor Multimodal Variational AutoEncoders Cross Modal Prediction

January 29, 2024

Triple Disentangled Representation Learning for Multimodal Affective Analysis
Ying Zhou, Xuefeng Liang, Han Chen, Yin Zhao, Xin Chen, Lida Yu
Multimodal Learning Disentangled Representation Multimodal Representation Modality Specific

Modality Specific

Papers

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

Prioritizing Modalities: Flexible Importance Scheduling in Federated Multimodal Learning

DeepInteraction++: Multi-Modality Interaction for Autonomous Driving

A Two-Stage Progressive Pre-training using Multi-Modal Contrastive Masked Autoencoders

A Systematic Review of Intermediate Fusion in Multimodal Deep Learning for Biomedical Applications

MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts

GTP-4o: Modality-prompted Heterogeneous Graph Learning for Omni-modal Biomedical Representation

Completed Feature Disentanglement Learning for Multimodal MRIs Analysis

Enhancing Continual Learning in Visual Question Answering with Modality-Aware Feature Distillation

X-VILA: Cross-Modality Alignment for Large Language Model

XTrack: Multimodal Training Boosts RGB-X Video Object Trackers

Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts

Beyond Unimodal Learning: The Importance of Integrating Multiple Modalities for Lifelong Learning

Rethinking Pruning for Vision-Language Models: Strategies for Effective Sparsity and Performance Restoration

H2ASeg: Hierarchical Adaptive Interaction and Weighting Network for Tumor Segmentation in PET/CT Images

SUN Team's Contribution to ABAW 2024 Competition: Audio-visual Valence-Arousal Estimation and Expression Recognition

Federated Modality-specific Encoders and Multimodal Anchors for Personalized Brain Tumor Segmentation

Towards Unified Multi-Modal Personalization: Large Vision-Language Models for Generative Recommendation and Beyond

Disentangling shared and private latent factors in multimodal Variational Autoencoders

Triple Disentangled Representation Learning for Multimodal Affective Analysis