Vision Language Understanding

Vision-language understanding (VLU) research aims to enable computers to comprehend and interact with both visual and textual information simultaneously. Current efforts focus on improving the robustness and detail-oriented capabilities of large vision-language models (LVLMs), addressing issues like susceptibility to misleading prompts ("sycophancy") and enhancing their ability to perceive fine-grained visual details. This involves developing novel architectures and training methods, such as incorporating contrastive and reconstruction learning, instruction tuning, and efficient retrieval mechanisms for handling long videos. Advances in VLU have significant implications for various applications, including robotics, image analysis, and multimodal interaction systems.

Papers

April 20, 2023

MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models
Deyao Zhu, Jun Chen, Xiaoqian Shen, Xiang Li, Mohamed Elhoseiny
Vision Language Model Vision Language Understanding Advanced Large Language Model Multi Modal Generation

March 24, 2023

Accelerating Vision-Language Pretraining with Free Language Modeling
Teng Wang, Yixiao Ge, Feng Zheng, Ran Cheng, Ying Shan, Xiaohu Qie, Ping Luo
Language Model Vision Language Vision Language Understanding

January 12, 2023

Toward Building General Foundation Models for Language, Vision, and Vision-Language Understanding Tasks
Xinsong Zhang, Yan Zeng, Jipeng Zhang, Hang Li
Foundation Model Human Language Vision Paper Vision Language Understanding

October 5, 2022

Locate before Answering: Answer Guided Question Localization for Video Question Answering
Tianwen Qian, Ran Cui, Jingjing Chen, Pai Peng, Xiaowei Guo, Yu-Gang Jiang
Video Question Answering Multiple Choice VideoQA Vision Language Understanding Long Term Video Locate Anything Visual Answer Localization

June 12, 2022

GLIPv2: Unifying Localization and Vision-Language Understanding
Haotian Zhang, Pengchuan Zhang, Xiaowei Hu, Yen-Chun Chen, Liunian Harold Li, Xiyang Dai, Lijuan Wang, Lu Yuan, Jenq-Neng Hwang, Jianfeng Gao
Contrastive Learning Localization Focus Vision Language Understanding Localization Task

January 28, 2022

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
Junnan Li, Dongxu Li, Caiming Xiong, Steven Hoi
Faithful Generation Vision Language Task Unified Alignment Vision Language Understanding Synthetic Caption Video Language Task Bit Level Information Preserving

January 11, 2022

Uni-EDEN: Universal Encoder-Decoder Network by Multi-Granular Vision-Language Pre-training
Yehao Li, Jiahao Fan, Yingwei Pan, Ting Yao, Weiyao Lin, Tao Mei
Vision Language Pre Training Encoder Decoder Multi Granularity Vision Language Understanding Equivariant Distance Encoding Encoder DEcoder

December 16, 2021

Distilled Dual-Encoder Model for Vision-Language Understanding
Zekun Wang, Wenhui Wang, Haichao Zhu, Ming Liu, Bing Qin, Furu Wei
Vision Language Understanding Cross Modal Distillation Dual Encoder Model

December 10, 2021

Unified Multimodal Pre-training and Prompt-based Tuning for Vision-Language Understanding and Generation
Tianyi Liu, Zuxuan Wu, Wenhan Xiong, Jingjing Chen, Yu-Gang Jiang
Vision Language Faithful Generation Prompt Tuning Multimodal Pre Vision Language Understanding Prompt Based Fine Tuning

November 18, 2021

ClipCap: CLIP Prefix for Image Captioning
Ron Mokady, Amir Hertz, Amit H. Bermano
Image Captioning Captioning Model Vision Language Understanding Descriptive Caption

Vision Language Understanding

Papers

MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models

Accelerating Vision-Language Pretraining with Free Language Modeling

Toward Building General Foundation Models for Language, Vision, and Vision-Language Understanding Tasks

Locate before Answering: Answer Guided Question Localization for Video Question Answering

GLIPv2: Unifying Localization and Vision-Language Understanding

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

Uni-EDEN: Universal Encoder-Decoder Network by Multi-Granular Vision-Language Pre-training

Distilled Dual-Encoder Model for Vision-Language Understanding

Unified Multimodal Pre-training and Prompt-based Tuning for Vision-Language Understanding and Generation

ClipCap: CLIP Prefix for Image Captioning