Visual Instruction

Visual instruction tuning focuses on enhancing multimodal large language models (MLLMs) by training them to follow instructions that incorporate both textual and visual information. Current research emphasizes creating high-quality, diverse datasets of visual instructions, often leveraging LLMs themselves for data generation, and developing model architectures that effectively integrate visual and textual cues, including techniques like contrastive learning and region-of-interest focusing. This field is significant because it pushes the boundaries of multimodal understanding and reasoning, leading to improved performance in various applications such as image captioning, question answering, and even robotic control.

Papers

March 17, 2024

SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant
Guohao Sun, Can Qin, Jiamian Wang, Zeyuan Chen, Ran Xu, Zhiqiang Tao
Vision Language Model Vision Language Vision Language Task Visual Instruction Tuning Visual Instruction

March 14, 2024

Less is More: High-value Data Selection for Visual Instruction Tuning
Zikang Liu, Kun Zhou, Wayne Xin Zhao, Dawei Gao, Yaliang Li, Ji-Rong Wen
Visual Instruction Tuning Visual Instruction Data Valuation

March 7, 2024

CAT: Enhancing Multimodal Large Language Model to Answer Questions in Dynamic Audio-Visual Scenarios
Qilang Ye, Zitong Yu, Rui Shao, Xinyu Xie, Philip Torr, Xiaochun Cao
Multimodal Large Language Model Audio Visual Yes No Question Visual Instruction 2 Cat Audio Visual Question Answering

March 4, 2024

Contrastive Region Guidance: Improving Grounding in Vision-Language Models without Training
David Wan, Jaemin Cho, Elias Stengel-Eskin, Mohit Bansal
Vision Language Model Grounding Network Visual Instruction Image Region Feature Guidance

February 18, 2024

Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning
Zhiyang Xu, Chao Feng, Rulin Shao, Trevor Ashby, Ying Shen, Di Jin, Yu Cheng, Qifan Wang, Lifu Huang
Vision Language Model Vision Paper New Task Multiplicative Size Scaling Visual Instruction Tuning Visual Instruction Multi Modal Benchmark

December 27, 2023

Visual Instruction Tuning towards General-Purpose Multimodal Model: A Survey
Jiaxing Huang, Jingyi Zhang, Kai Jiang, Han Qiu, Shijian Lu
Timely Survey Vision Task Image Recognition Visual Instruction Tuning Visual Instruction

December 12, 2023

VILA: On Pre-training for Visual Language Models
Ji Lin, Hongxu Yin, Wei Ping, Yao Lu, Pavlo Molchanov, Andrew Tao, Huizi Mao, Jan Kautz, Mohammad Shoeybi, Song Han
Visual Language Model Optimal Layout Visual Language Visual Instruction Multi Modal Pre Training

December 7, 2023

Generating Illustrated Instructions
Sachit Menon, Ishan Misra, Rohit Girdhar
Text to Image Generation Human Generated Visual Instruction Personalized Knowledge

November 30, 2023

HKUST at SemEval-2023 Task 1: Visual Word Sense Disambiguation with Context Augmentation and Visual Assistance
Zhuohao Yin, Xin Huang
Vision Language Model Multi Modal SemEval 2022 Task Image Retrieval Visual Instruction Sense Disambiguation Context Augmentation Visual Word Sense Disambiguation

November 29, 2023

Explaining CLIP's performance disparities on data from blind/low vision users
Daniela Massiceti, Camilla Longden, Agnieszka Słowik, Samuel Wills, Martin Grayson, Cecily Morrison
Raw Data Single CLIP Visual Instruction Large Multi Modal Model Assistive Technology Performance Disparity Zero Shot Classification Task

November 22, 2023

HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data
Qifan Yu, Juncheng Li, Longhui Wei, Liang Pang, Wentao Ye, Bosheng Qin, Siliang Tang, Qi Tian, Yueting Zhuang
Mitigating Hallucination Visual Instruction Hallucination Evaluation Benchmark

November 13, 2023

To See is to Believe: Prompting GPT-4V for Better Visual Instruction Tuning
Junke Wang, Lingchen Meng, Zejia Weng, Bo He, Zuxuan Wu, Yu-Gang Jiang
GPT 4 Visual Instruction Tuning Instructional Video Visual Instruction Instruction Quality CLVision Challenge

November 2, 2023

What Makes for Good Visual Instructions? Synthesizing Complex Visual Reasoning Instructions for Visual Instruction Tuning
Yifan Du, Hangyu Guo, Kun Zhou, Wayne Xin Zhao, Jinpeng Wang, Chuyuan Wang, Mingchen Cai, Ruihua Song, Ji-Rong Wen
Visual Reasoning Visual Instruction Tuning Visual Instruction Visual Reasoning Task Synthetic Reasoning

September 22, 2023

Deep3DSketch+: Rapid 3D Modeling from Single Free-hand Sketches
Tianrun Chen, Chenglong Fu, Ying Zang, Lanyun Zhu, Jia Zhang, Papa Mao, Lingyun Sun
Visual Instruction 3D Modeling Rapid Prototyping Free Hand Sketch Sketch to 3D

August 26, 2023

VIDES: Virtual Interior Design via Natural Language and Visual Guidance
Minh-Hien Le, Chi-Bien Chu, Khanh-Duy Le, Tam V. Nguyen, Minh-Triet Tran, Trung-Nghia Le
Natural Language Indoor Scene Indoor Environment Visual Instruction Virtual Interior DESign

July 9, 2023

SVIT: Scaling up Visual Instruction Tuning
Bo Zhao, Boya Wu, Muyang He, Tiejun Huang
Multimodal Large Language Model Instruction Tuning Multimodal Model Visual Instruction Tuning Visual Instruction

July 7, 2023

GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest
Shilong Zhang, Peize Sun, Shoufa Chen, Min Xiao, Wenqi Shao, Wenwei Zhang, Yu Liu, Kai Chen, Ping Luo
Large Language Model Human Instruction Visual Instruction Region Text Pair

June 26, 2023

Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning
Fuxiao Liu, Kevin Lin, Linjie Li, Jianfeng Wang, Yaser Yacoob, Lijuan Wang
Instruction Tuning Vision Language Task Mitigating Hallucination Visual Instruction Tuning Visual Instruction Large Multi Modal Model Graph Based Robotic Instruction Decomposer

May 8, 2023

MultiModal-GPT: A Vision and Language Model for Dialogue with Humans
Tao Gong, Chengqi Lyu, Shilong Zhang, Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo, Kai Chen
Language Model Vision Paper Real Human Dialogue Utterance Visual Instruction Multi Modal Instruction Multimodal GPT

March 24, 2023

Aligning Step-by-Step Instructional Diagrams to Video Demonstrations
Jiahao Zhang, Anoop Cherian, Yanbin Liu, Yizhak Ben-Shabat, Cristian Rodriguez, Stephen Gould
Contrastive Learning Ground Truth Assembly Task Video Demonstration Visual Instruction Multimodal Alignment