MLLM Attention

Multimodal large language models (MLLMs) aim to integrate diverse data modalities (text, images, video) for enhanced understanding and reasoning capabilities. Current research focuses on improving MLLM efficiency (e.g., through adaptive cropping, efficient inference frameworks, and modular architectures like Mixture-of-Experts), addressing limitations such as hallucination and catastrophic forgetting, and developing robust evaluation methods. These advancements are significant because they enable more powerful and reliable applications in areas like robotics, medical diagnosis, and general-purpose AI, pushing the boundaries of multimodal understanding and reasoning.

Papers

August 21, 2024

EE-MLLM: A Data-Efficient and Compute-Efficient Multimodal Large Language Model
Feipeng Ma, Yizhou Zhou, Hebei Li, Zilong He, Siying Wu, Fengyun Rao, Yueyi Zhang, Xiaoyan Sun
Cross Attention Multimodal LLM Data Efficient Modality Alignment MLLM Attention

August 5, 2024

UnifiedMLLM: Enabling Unified Representation for Multi-modal Multi-tasks With Large Language Model
Zhaowei Li, Wei Wang, YiQing Cai, Xu Qi, Pengyu Wang, Dong Zhang, Hang Song, Botian Jiang, Zhida Huang, Tao Wang
Large Language Model Multi Modal Large Language Model Task Specific Unified Representation MLLM Attention Multi Modal Multi

August 4, 2024

Mini-Monkey: Alleviating the Semantic Sawtooth Effect for Lightweight MLLMs via Complementary Image Pyramid
Mingxin Huang, Yuliang Liu, Dingkang Liang, Lianwen Jin, Xiang Bai
Multimodal Large Language Model Multi Scale Representation MLLM Attention Spatial Semantic Collaborative Cropping

July 30, 2024

Interpreting and Mitigating Hallucination in MLLMs through Multi-agent Debate
Zheng Lin, Zhenxing Niu, Zhibin Wang, Yinghui Xu
Content Hallucination Mitigating Hallucination Machine Translated Type II Hallucination Multi Agent Debate MLLM Attention

July 17, 2024

MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models
Leyang Shen, Gongwei Chen, Rui Shao, Weili Guan, Liqiang Nie
Multimodal Large Language Model Mixture Component Mixture of Expert Vision Encoders MLLM Attention

June 17, 2024

AIC MLLM: Autonomous Interactive Correction MLLM for Robust Robotic Manipulation
Chuyan Xiong, Chengyu Shen, Xiaoqi Li, Kaichen Zhou, Jiaming Liu, Ruiping Wang, Hao Dong
MLLM Training MLLM Attention Robust Manipulation Stable Manipulation

June 13, 2024

MMRel: A Relation Understanding Benchmark in the MLLM Era
Jiahao Nie, Gongjie Zhang, Wenbin An, Yap-Peng Tan, Alex C. Kot, Shijian Lu
New Benchmark Relation Extraction Multi Modal Large Language Model Multi Modal Data MLLM Attention Relation Comprehension Object Relation

June 8, 2024

MLLM-SR: Conversational Symbolic Regression base Multi-Modal Large Language Models
Yanjie Li, Weijun Li, Lina Yu, Min Wu, Jingyi Liu, Wenqiang Li, Shu Wei, Yusong Deng
Symbolic Regression Multi Modal Large Language Model Natural Language Instruction MLLM Attention

June 5, 2024

Wings: Learning Multimodal LLMs without Text-only Forgetting
Yi-Kai Zhang, Shiyin Lu, Yang Li, Yanqing Ma, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, De-Chuan Zhan, Han-Jia Ye
Multimodal Large Language Model Visual Question Answering Multimodal LLM Multimodal Input Multimodal Comprehension MLLM Attention Dual Purpose WING Text Removal

April 24, 2024

Cantor: Inspiring Multimodal Chain-of-Thought of MLLM
Timin Gao, Peixian Chen, Mengdan Zhang, Chaoyou Fu, Yunhang Shen, Yan Zhang, Shengchuan Zhang, Xiawu Zheng, Xing Sun, Liujuan Cao, Rongrong Ji
Chain of Thought Visual Reasoning MLLM Attention Visual Reasoning Task

March 25, 2024

Elysium: Exploring Object-level Perception in Videos via MLLM
Han Wang, Yanjie Wang, Yongjie Ye, Yuxiang Nie, Can Huang
Gameplay Video Large Scale Video MLLM Training MLLM Attention Object Perception

March 19, 2024

DetToolChain: A New Prompting Paradigm to Unleash Detection Ability of MLLM
Yixuan Wu, Yizhou Wang, Shixiang Tang, Wenhao Wu, Tong He, Wanli Ouyang, Jian Wu, Philip Torr
Zero Shot Chain of Thought High Detection MLLM Attention State of the Art Object

March 16, 2024

Optimizing Language Augmentation for Multilingual Large Language Models: A Case Study on Korean
ChangSu Choi, Yongbin Jeong, Seoyoon Park, InHo Won, HyeonSeok Lim, SangMin Kim, Yejee Kang, Chanhyuk Yoon, Jaewan Park, Yiseul Lee, HyeJin Lee, Younggyun Hahm, Hansaem Kim, KyungTae Lim
Large Language Model Case Study Multilingual Large Language Model Bilingual Data MLLM Attention

March 4, 2024

adaptMLLM: Fine-Tuning Multilingual Language Models on Low-Resource Languages with Integrated LLM Playgrounds
Séamus Lankford, Haithem Afli, Andy Way
Low Resource Language Multilingual Language Model MLLM Attention LLM Simulation

February 20, 2024

The Wolf Within: Covert Injection of Malice into MLLM Societies via an MLLM Operative
Zhen Tan, Chengshuai Zhao, Raha Moraffah, Yifan Li, Yu Kong, Tianlong Chen, Huan Liu
Artificial General Intelligence MLLM Training MLLM Attention MLLM Security MLLM Agent

August 25, 2023

MLLM-DataEngine: An Iterative Refinement Approach for MLLM
Zhiyuan Zhao, Linke Ouyang, Bin Wang, Siyuan Huang, Pan Zhang, Xiaoyi Dong, Jiaqi Wang, Conghui He
Multimodal Large Language Model Iterative Refinement MLLM Training MLLM Attention

April 10, 2023

Modularizing and Assembling Cognitive Map Learners via Hyperdimensional Computing
Nathan McDonald
Hyperdimensional Computing Cognitive Map MLLM Attention Human Locomotion

MLLM Attention

Papers

EE-MLLM: A Data-Efficient and Compute-Efficient Multimodal Large Language Model

UnifiedMLLM: Enabling Unified Representation for Multi-modal Multi-tasks With Large Language Model

Mini-Monkey: Alleviating the Semantic Sawtooth Effect for Lightweight MLLMs via Complementary Image Pyramid

Interpreting and Mitigating Hallucination in MLLMs through Multi-agent Debate

MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models

AIC MLLM: Autonomous Interactive Correction MLLM for Robust Robotic Manipulation

MMRel: A Relation Understanding Benchmark in the MLLM Era

MLLM-SR: Conversational Symbolic Regression base Multi-Modal Large Language Models

Wings: Learning Multimodal LLMs without Text-only Forgetting

Cantor: Inspiring Multimodal Chain-of-Thought of MLLM

Elysium: Exploring Object-level Perception in Videos via MLLM

DetToolChain: A New Prompting Paradigm to Unleash Detection Ability of MLLM

Optimizing Language Augmentation for Multilingual Large Language Models: A Case Study on Korean

adaptMLLM: Fine-Tuning Multilingual Language Models on Low-Resource Languages with Integrated LLM Playgrounds

The Wolf Within: Covert Injection of Malice into MLLM Societies via an MLLM Operative

MLLM-DataEngine: An Iterative Refinement Approach for MLLM

Modularizing and Assembling Cognitive Map Learners via Hyperdimensional Computing