Visual Prompt

Visual prompting is a rapidly evolving technique that enhances the capabilities of large language and vision-language models by providing visual instructions, such as points, boxes, masks, or even entire images, alongside textual prompts. Current research focuses on improving model performance in tasks like image segmentation, object recognition, and question answering through various methods including prompt optimization, multi-representation learning, and the integration of external knowledge sources. This approach offers significant potential for improving the efficiency and accuracy of multimodal AI systems, impacting diverse fields from medical image analysis to remote sensing and creative applications like text-to-image and text-to-3D generation.

Papers

August 19, 2024

MePT: Multi-Representation Guided Prompt Tuning for Vision-Language Model
Xinyang Wang, Yi Yang, Minfeng Zhu, Kecheng Zheng, Shi Liu, Wei Chen
Vision Language Model Vision Language Prompt Tuning Style PROMPT Visual Prompt Diverse Representation

August 16, 2024

Learning A Low-Level Vision Generalist via Visual Task Prompt
Xiangyu Chen, Yihao Liu, Yuandong Pu, Wenlong Zhang, Jiantao Zhou, Yu Qiao, Chao Dong
Visual Prompt Visual Task Low Level Vision Task Multi Task Image Restoration

August 7, 2024

Empirical Analysis of Large Vision-Language Models against Goal Hijacking via Visual Prompt Injection
Subaru Kimura, Ryota Tanaka, Shumpei Miyawaki, Jun Suzuki, Keisuke Sakaguchi
Large Vision Language Model Visual Prompt Empirical Analysis

July 31, 2024

ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models
Mingrui Wu, Xinyue Cai, Jiayi Ji, Jiale Li, Oucheng Huang, Gen Luo, Hao Fei, Guannan Jiang, Xiaoshuai Sun, Rongrong Ji
Multimodal Large Language Model Attention Layer Visual Prompt Visual Token

July 24, 2024

July 18, 2024

EarthMarker: A Visual Prompting Multi-modal Large Language Model for Remote Sensing
Wei Zhang, Miaoxin Cai, Tong Zhang, Jun Li, Yin Zhuang, Xuerui Mao
Remote Sensing Image Visual Prompt Region Specific Visual Prompting

July 15, 2024

July 9, 2024

ColorPeel: Color Prompt Learning with Diffusion Models via Color and Shape Disentanglement
Muhammad Atif Butt, Kai Wang, Javier Vazquez-Corral, Joost van de Weijer
Diffusion Model Image Synthesis Object Shape Visual Prompt Color Object Quantum Entanglement Shape Disentanglement

July 8, 2024

FALIP: Visual Prompt as Foveal Attention Boosts CLIP Zero-Shot Performance
Jiedong Zhuang, Jiaqi Hu, Lianrui Mu, Rui Hu, Xiaoyu Liang, Jiangnan Ye, Haoji Hu
Zero Shot Visual Prompt

July 6, 2024

The Solution for Language-Enhanced Image New Category Discovery
Haonan Xu, Dian Chao, Xiangyu Wu, Zhonghua Wan, Yang Yang
Solution Path Visual Prompt Textual Label Zero Shot Multi Label

July 5, 2024

Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge
Yuanze Lin, Yunsheng Li, Dongdong Chen, Weijian Xu, Ronald Clark, Philip Torr, Lu Yuan
Large Language Model Retrieval Augmented Generation Multimodal Large Language Model Visual Prompt External Knowledge Visual Prompting Image Text Datasets

July 4, 2024

Diff-Restorer: Unleashing Visual Prompts for Diffusion-based Universal Image Restoration
Yuhong Zhang, Hengsheng Zhang, Xinning Chai, Zhengxue Cheng, Rong Xie, Li Song, Wenjun Zhang
Image Restoration Visual Prompt Degraded Image

July 3, 2024

Motion meets Attention: Video Motion Prompts
Qixiang Chen, Lei Wang, Piotr Koniusz, Tom Gedeon
Human Attention Motion Information Visual Prompt Video Motion Motion Cue Motion Extraction

July 2, 2024

June 5, 2024

June 4, 2024

Why Only Text: Empowering Vision-and-Language Navigation with Multi-modal Prompts
Haodong Hong, Sen Wang, Zi Huang, Qi Wu, Jiajun Liu
Text Modality Visual Prompt Vision and Language Navigation Multimodal Instruction Multi Modal PromPt

Visual Prompt

Papers

MePT: Multi-Representation Guided Prompt Tuning for Vision-Language Model

Learning A Low-Level Vision Generalist via Visual Task Prompt

Empirical Analysis of Large Vision-Language Models against Goal Hijacking via Visual Prompt Injection

ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models

(PASS) Visual Prompt Locates Good Structure Sparsity through a Recurrent HyperNetwork

MemBench: Memorized Image Trigger Prompt Dataset for Diffusion Models

EarthMarker: A Visual Prompting Multi-modal Large Language Model for Remote Sensing

AccDiffusion: An Accurate Method for Higher-Resolution Image Generation

By My Eyes: Grounding Multimodal Large Language Models with Sensor Data via Visual Prompting

ColorPeel: Color Prompt Learning with Diffusion Models via Color and Shape Disentanglement

FALIP: Visual Prompt as Foveal Attention Boosts CLIP Zero-Shot Performance

The Solution for Language-Enhanced Image New Category Discovery

Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge

Diff-Restorer: Unleashing Visual Prompts for Diffusion-based Universal Image Restoration

Motion meets Attention: Video Motion Prompts

Label Anything: Multi-Class Few-Shot Semantic Segmentation with Visual Prompts

SADL: An Effective In-Context Learning Method for Compositional Visual QA

Learning Visual Prompts for Guiding the Attention of Vision Transformers

Attend and Enrich: Enhanced Visual Prompt for Zero-Shot Learning

Why Only Text: Empowering Vision-and-Language Navigation with Multi-modal Prompts