Visual Token

December 2, 2024

[CLS] Attention is All You Need for Training-Free Visual Token Pruning: Make VLM Inference Faster
Qizhe Zhang, Aosong Cheng, Ming Lu, Zhiyong Zhuo, Minqi Wang, Jiajun Cao, Shaobo Guo, Qi She, Shanghang Zhang
Human Attention Large Vision Language Model Visual Token Visual Encoder Token Pruning Video Token

November 30, 2024

Accelerating Multimodel Large Language Models by Searching Optimal Vision Token Reduction
Shiyu Zhao, Zhenting Wang, Felix Juefei-Xu, Xide Xia, Miao Liu, Xiaofang Wang, Mingfu Liang, Ning Zhang, Dimitris N. Metaxas, Licheng Yu
Language Model Visual Token Token Reduction
ATP-LLaVA: Adaptive Token Pruning for Large Vision Language Models
Xubing Ye, Yukang Gan, Yixiao Ge, Xiao-Ping Zhang, Yansong Tang
Large Vision Language Model Adaptive Importance Edge Pruning Visual Token Token Pruning Spatial Pruning

November 29, 2024

Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings
Qiong Wu, Wenhao Lin, Weihao Ye, Yiyi Zhou, Xiaoshuai Sun, Rongrong Ji
Empirical Study Multimodal Phenomenon Visual Token Multimodal Reasoning Early eXit

November 26, 2024

Efficient Multi-modal Large Language Models via Visual Token Grouping
Minbin Huang, Runhui Huang, Han Shi, Yimeng Chen, Chuanyang Zheng, Xiangguo Sun, Xin Jiang, Zhenguo Li, Hong Cheng
Pre Trained Multi Modal Large Language Model Visual Token Token Merging Semantic Token

November 22, 2024

DyCoke: Dynamic Compression of Tokens for Fast Video Large Language Models
Keda Tao, Can Qin, Haoxuan You, Yang Sui, Huan Wang
Large Language Model Full Model K TOKEN Visual Token Video Language Temporal Shift Module Complex Video

November 21, 2024

November 17, 2024

TS-LLaVA: Constructing Visual Tokens through Thumbnail-and-Sampling for Training-Free Video Large Language Models
Tingyu Qu, Mingxiao Li, Tinne Tuytelaars, Marie-Francine Moens
Large Language Model Pre Trained Training Free Visual Token Video Understanding Task Video LLM

November 16, 2024

Multi-Stage Vision Token Dropping: Towards Efficient Multimodal Large Language Model
Ting Liu, Liangtao Shi, Richang Hong, Yue Hu, Quanjun Yin, Linfeng Zhang
Language Model Multimodal Large Language Model Visual Token Dual Attention Token Reduction Visual Encoding

November 11, 2024

ENAT: Rethinking Spatial-temporal Interactions in Token-based Image Synthesis
Zanlin Ni, Yulin Wang, Renping Zhou, Yizeng Han, Jiayi Guo, Zhiyuan Liu, Yuan Yao, Gao Huang
Critical Synthesis Visual Token Deep Representation Token Representation Temporal Interaction EfficientNet Algorithm Latent Token Non Autoregressive Transformer

November 5, 2024

Inference Optimal VLMs Need Only One Visual Token but Larger Models
Kevin Y. Li, Sachin Goyal, Joao D. Semedo, J. Zico Kolter
Vision Language Model Scientific Inference Large Model Visual Reasoning Inference Cost Visual Token Token Compression

October 30, 2024

PIP-MM: Pre-Integrating Prompt Information into Visual Encoding via Existing MLLM Structures
Tianxiang Wu, Minxin Nie, Ziqiang Cao
Multimodal Phenomenon Visual Token Visual Input MLLM Attention Visual Language Task Visual Encoding

October 22, 2024

PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction
Long Xing, Qidong Huang, Xiaoyi Dong, Jiajie Lu, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang, Feng Wu, Dahua Lin
Large Vision Language Model Visual Token Image Token Fine Scale Gaussian Pyramid Level

October 18, 2024

Croc: Pretraining Large Multimodal Models with Cross-Modal Comprehension
Yin Xie, Kaicheng Yang, Ninghua Yang, Weimo Deng, Xiangzi Dai, Tiancheng Gu, Yumeng Wang, Xiang An, Yongle Zhao, Ziyong Feng, Roy Miles, Ismail Elezi, Jiankang Deng
Large Multimodal Model Visual Token Multimodal Understanding

October 17, 2024

Efficient Vision-Language Models by Summarizing Visual Tokens into Compact Registers
Yuxin Wen, Qingqing Cao, Qichen Fu, Sachin Mehta, Mahyar Najibi
Vision Language Model Visual Token Efficient Vision Language Model Input Token

October 15, 2024

Have the VLMs Lost Confidence? A Study of Sycophancy in VLMs
Shuo Li, Tao Ji, Xiaoran Fan, Linsheng Lu, Leyi Yang, Yuming Yang, Zhiheng Xi, Rui Zheng, Yuran Wang, Xiaohui Zhao, Tao Gui, Qi Zhang, Xuanjing Huang
Vision Language Model Study Feature Visual Language Model Visual Attention Visual Token Visual Sycophancy

October 14, 2024

Spatial-Aware Efficient Projector for MLLMs via Multi-Layer Feature Aggregation
Shun Qian, Bingquan Liu, Chengjie Sun, Zhen Xu, Baoxun Wang
Data Aggregation Visual Token Multimodal Understanding Multi Modal Language Model Multi Level Feature Multi Modal Benchmark Camera Projector Modal Large Language Model

October 9, 2024

Papers

[CLS] Attention is All You Need for Training-Free Visual Token Pruning: Make VLM Inference Faster

Accelerating Multimodel Large Language Models by Searching Optimal Vision Token Reduction

ATP-LLaVA: Adaptive Token Pruning for Large Vision Language Models

Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings

Efficient Multi-modal Large Language Models via Visual Token Grouping

DyCoke: Dynamic Compression of Tokens for Fast Video Large Language Models

FocusLLaVA: A Coarse-to-Fine Approach for Efficient and Effective Visual Token Compression

FoPru: Focal Pruning for Efficient Large Vision-Language Models

TS-LLaVA: Constructing Visual Tokens through Thumbnail-and-Sampling for Training-Free Video Large Language Models

Multi-Stage Vision Token Dropping: Towards Efficient Multimodal Large Language Model

ENAT: Rethinking Spatial-temporal Interactions in Token-based Image Synthesis

Inference Optimal VLMs Need Only One Visual Token but Larger Models

PIP-MM: Pre-Integrating Prompt Information into Visual Encoding via Existing MLLM Structures

PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction

Croc: Pretraining Large Multimodal Models with Cross-Modal Comprehension

Efficient Vision-Language Models by Summarizing Visual Tokens into Compact Registers

Have the VLMs Lost Confidence? A Study of Sycophancy in VLMs

Spatial-Aware Efficient Projector for MLLMs via Multi-Layer Feature Aggregation

Towards Interpreting Visual Information Processing in Vision-Language Models

QuadMamba: Learning Quadtree-based Selective Scan for Visual State Space Model