Visual in Context Learning

Visual in-context learning (VICL) aims to enable computer vision models to perform diverse tasks using only a few example images and associated textual descriptions, without requiring extensive retraining. Current research focuses on improving efficiency and accuracy through techniques like prompt selection algorithms, multimodal model architectures (e.g., incorporating transformers and vision-language models), and novel methods for fusing visual and textual information. This approach holds significant promise for reducing the need for large labeled datasets in computer vision, thereby accelerating progress in various applications, including image restoration, segmentation, and captioning.

Papers

January 12, 2024

Batch-ICL: Effective, Efficient, and Order-Agnostic In-Context Learning
Kaiyi Zhang, Ang Lv, Yuhan Chen, Hansen Ha, Tao Xu, Rui Yan
Context Learning Visual in Context Learning Meta Gradient Meta Optimization High Order Inference

December 11, 2023

Flexible visual prompts for in-context learning in computer vision
Thomas Foster, Ioana Croitoru, Robert Dorfman, Christoffer Edlund, Thomas Varsavsky, Jon Almazán
Computer Vision Context Learning Image Segmentation Visual Prompt Video Object Segmentation Visual in Context Learning

November 7, 2023

Instruct Me More! Random Prompting for Visual In-Context Learning
Jiahao Zhang, Bowen Wang, Liangzhi Li, Yuta Nakashima, Hajime Nagahara
Computer Vision Context Learning Object Detection Visual in Context Learning Prompt Decomposition

October 23, 2023

The BLA Benchmark: Investigating Basic Language Abilities of Pre-Trained Multimodal Models
Xinyi Chen, Raquel Fernández, Sandro Pezzelle
Transformer Based Multimodal Model Multimodal Pre Visual in Context Learning Word Alignment

September 28, 2023

Visual In-Context Learning for Few-Shot Eczema Segmentation
Neelesh Kumar, Oya Aran, Venugopal Vasudevan
Visual in Context Learning

May 26, 2023

Im-Promptu: In-Context Composition from Image Prompts
Bhishma Dedhia, Michael Chang, Jake C. Snell, Thomas L. Griffiths, Niraj K. Jha
Compositional Generalization Visual Prompt Analogical Reasoning Visual in Context Learning Context Generalization

May 24, 2023

Exploring Diverse In-Context Configurations for Image Captioning
Xu Yang, Yongliang Wu, Mingzhuo Yang, Haokun Chen, Xin Geng
Language Model Image Captioning Shot in Context Learning Visual in Context Learning Context Sequence

April 10, 2023

Exploring Effective Factors for Improving Visual In-Context Learning
Yanpeng Sun, Qiang Chen, Jian Wang, Jingdong Wang, Zechao Li
Context Learning Key Factor Visual in Context Learning Prompt Fusion

January 31, 2023

What Makes Good Examples for Visual In-Context Learning?
Yuanhan Zhang, Kaiyang Zhou, Ziwei Liu
Context Learning Context Example Large Vision Model Visual in Context Learning

January 20, 2023

Visual Semantic Relatedness Dataset for Image Captioning
Ahmed Sabir, Francesc Moreno-Noguer, Lluís Padró
Image Captioning Natural Language Processing Task Generated Caption Visual in Context Learning Semantic Textual Relatedness COCO Caption

December 5, 2022

Images Speak in Images: A Generalist Painter for In-Context Visual Learning
Xinlong Wang, Wen Wang, Yue Cao, Chunhua Shen, Tiejun Huang
Context Learning Vision Task Task Specific Model Visual Understanding Visual in Context Learning Image Speak Creative Painting

April 14, 2022

3D Shuffle-Mixer: An Efficient Context-Aware Vision Learner of Transformer-MLP Paradigm for Dense Prediction in Medical Volume
Jianye Pang, Cheng Jiang, Yihao Chen, Jianbo Chang, Ming Feng, Renzhi Wang, Jianhua Yao
Vision Transformer Dense Prediction Deep Transformer Local Transformer Visual in Context Learning MRI Volume CNN Backbone

December 9, 2021

Learning Auxiliary Monocular Contexts Helps Monocular 3D Object Detection
Xianpeng Liu, Nan Xue, Tianfu Wu
3D Object Detection Bounding Box Monocular 3D Object Detection Visual in Context Learning 3D Camera 3D Bounding Box Annotation