Vision Language Understanding

Vision-language understanding (VLU) research aims to enable computers to comprehend and interact with both visual and textual information simultaneously. Current efforts focus on improving the robustness and detail-oriented capabilities of large vision-language models (LVLMs), addressing issues like susceptibility to misleading prompts ("sycophancy") and enhancing their ability to perceive fine-grained visual details. This involves developing novel architectures and training methods, such as incorporating contrastive and reconstruction learning, instruction tuning, and efficient retrieval mechanisms for handling long videos. Advances in VLU have significant implications for various applications, including robotics, image analysis, and multimodal interaction systems.

Papers

April 22, 2024

SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation
Yuying Ge, Sijie Zhao, Jinguo Zhu, Yixiao Ge, Kun Yi, Lin Song, Chen Li, Xiaohan Ding, Ying Shan
Faithful Generation Multimodal Model Multimodal Foundation Model Vision Language Understanding Fine Grained Image

March 19, 2024

March 14, 2024

VisionGPT: Vision-Language Understanding Agent Using Generalized Multimodal Framework
Chris Kelly, Luhui Hu, Bang Yang, Yu Tian, Deshun Yang, Cindy Yang, Zaoshan Huang, Zihao Li, Jiayin Hu, Yuexian Zou
Open World Vision Based Vision Language Understanding Multimodal Framework

March 8, 2024

DeepSeek-VL: Towards Real-World Vision-Language Understanding
Haoyu Lu, Wen Liu, Bo Zhang, Bingxuan Wang, Kai Dong, Bo Liu, Jingxiang Sun, Tongzheng Ren, Zhuoshu Li, Hao Yang, Yaofeng Sun, Chengqi Deng, Hanwei Xu, Zhenda Xie, Chong Ruan
Vision Language Model Vision Language Real World Vision Language Understanding Vision Language Benchmark

February 20, 2024

Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions
Akash Ghosh, Arkadeep Acharya, Sriparna Saha, Vinija Jain, Aman Chadha
Timely Survey Vision Language Model Future Direction Multimodal Input New Frontier Vision Language Understanding Vision Capability Current Approach

January 31, 2024

Proximity QA: Unleashing the Power of Multi-Modal Large Language Models for Spatial Proximity Analysis
Jianing Li, Xi Nan, Ming Lu, Li Du, Shanghang Zhang
Real Power Multi Modal Large Language Model Vision Language Understanding Proximity Search Depth Perception

January 29, 2024

InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Model
Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Bin Wang, Linke Ouyang, Xilin Wei, Songyang Zhang, Haodong Duan, Maosong Cao, Wenwei Zhang, Yining Li, Hang Yan, Yang Gao, Xinyue Zhang, Wei Li, Jingwen Li, Kai Chen, Conghui He, Xingcheng Zhang, Yu Qiao, Dahua Lin, Jiaqi Wang
Vision Language Model Large Vision Language Model Multimodal Understanding Knowledge Comprehension Capability Vision Language Understanding Text Image Composition

December 12, 2023

Vision-language Assisted Attribute Learning
Kongming Liang, Xinran Wang, Rui Wang, Donghui Gao, Ling Jin, Weidong Liu, Xiatian Zhu, Zhanyu Ma, Jun Guo
Vision Language Model Vision Language Model Learning Vision Language Understanding Attribute Label Attribute Learning

November 30, 2023

Synthesize, Diagnose, and Optimize: Towards Fine-Grained Vision-Language Understanding
Wujian Peng, Sicheng Xie, Zuyao You, Shiyi Lan, Zuxuan Wu
Fine Grained Vision Language Model Medical Diagnosis Vision Language Understanding Perceptual Distance

November 27, 2023

Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage and Sharing in LLMs
Yunxin Li, Baotian Hu, Wei Wang, Xiaochun Cao, Min Zhang
Medical LLM Vision Language Understanding Sharing Matter Visual Memory

November 16, 2023

Video-LLaVA: Learning United Visual Representation by Alignment Before Projection
Bin Lin, Yang Ye, Bin Zhu, Jiaxi Cui, Munan Ning, Peng Jin, Li Yuan
Large Language Model Large Vision Language Model Alignment Problem Projection Bias Vision Language Understanding Unified Visual

November 13, 2023

Semantically Grounded QFormer for Efficient Vision Language Understanding
Moulik Choraria, Xinbo Wu, Sourya Basu, Nitesh Sekhar, Yue Wu, Xu Zhang, Prateek Singhal, Lav R. Varshney
Vision Language Model Vision Language Vision Language Alignment Vision Language Understanding Vision Language Instruction Tuning

November 2, 2023

Vision-Language Foundation Models as Effective Robot Imitators
Xinghang Li, Minghuan Liu, Hanbo Zhang, Cunjun Yu, Jie Xu, Hongtao Wu, Chilam Cheang, Ya Jing, Weinan Zhang, Huaping Liu, Hang Li, Tao Kong
Vision Language Model Vision Language Foundation Model Vision Language Understanding Robot Imitation

August 31, 2023

Distraction-free Embeddings for Robust VQA
Atharvan Dogra, Deeksha Varshney, Ashwin Kalyan, Ameet Deshpande, Neeraj Kumar
Video Question Answering Cross Modal Representation Vision Language Understanding Cross Modal Fusion

July 3, 2023

June 2, 2023

Revisiting the Role of Language Priors in Vision-Language Models
Zhiqiu Lin, Xinyue Chen, Deepak Pathak, Pengchuan Zhang, Deva Ramanan
Vision Language Model Integral Role Vision Language Understanding Generative Pre Training Vision Language Benchmark Language Prior Generative Vision Language Model

May 11, 2023

Simple Token-Level Confidence Improves Caption Correctness
Suzanne Petryk, Spencer Whitehead, Joseph E. Gonzalez, Trevor Darrell, Anna Rohrbach, Marcus Rohrbach
Vision Language Model Image Caption Vision Language Understanding Token Level Uncertainty

April 27, 2023

Retrieval-based Knowledge Augmented Vision Language Pre-training
Jiahua Rao, Zifei Shan, Longpo Liu, Yao Zhou, Yuedong Yang
Vision Language Task Vision Language Understanding

Vision Language Understanding

Papers

SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation

Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models

VisionGPT: LLM-Assisted Real-Time Anomaly Detection for Safe Visual Navigation

VisionGPT: Vision-Language Understanding Agent Using Generalized Multimodal Framework

DeepSeek-VL: Towards Real-World Vision-Language Understanding

Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions

Proximity QA: Unleashing the Power of Multi-Modal Large Language Models for Spatial Proximity Analysis

InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Model

Vision-language Assisted Attribute Learning

Synthesize, Diagnose, and Optimize: Towards Fine-Grained Vision-Language Understanding

Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage and Sharing in LLMs

Video-LLaVA: Learning United Visual Representation by Alignment Before Projection

Semantically Grounded QFormer for Efficient Vision Language Understanding

Vision-Language Foundation Models as Effective Robot Imitators

Distraction-free Embeddings for Robust VQA

CoPL: Contextual Prompt Learning for Vision-Language Understanding

UniFine: A Unified and Fine-grained Approach for Zero-shot Vision-Language Understanding

Revisiting the Role of Language Priors in Vision-Language Models

Simple Token-Level Confidence Improves Caption Correctness

Retrieval-based Knowledge Augmented Vision Language Pre-training