Visual Grounding

Visual grounding is the task of connecting natural language descriptions to corresponding regions within an image or 3D scene. Current research focuses on improving the accuracy and efficiency of visual grounding models, often employing transformer-based architectures and leveraging large multimodal language models (MLLMs) for enhanced feature fusion and reasoning capabilities. This field is crucial for advancing embodied AI, enabling robots and other agents to understand and interact with the world through natural language, and has significant implications for applications such as robotic manipulation, visual question answering, and medical image analysis.

Papers

January 30, 2024

Towards Unified Interactive Visual Grounding in The Wild
Jie Xu, Hanbo Zhang, Qingyi Si, Yifeng Li, Xuguang Lan, Tao Kong
Human Robot Interaction Wild Challenge Visual Grounding Visual Dialog

January 29, 2024

LCV2: An Efficient Pretraining-Free Framework for Grounded Visual Question Answering
Yuhan Chen, Lumei Su, Lihua Chen, Zhiwei Lin
Vision Language Visual Grounding Frozen Large Language Model VQA Task

January 15, 2024

Uncovering the Full Potential of Visual Grounding Methods in VQA
Daniel Reich, Tanja Schultz
Visual Question Answering Full Potential Visual Grounding Visual Question

January 9, 2024

Visual Enumeration is Challenging for Large-scale Generative AI
Alberto Testolin, Kuinan Hou, Marco Zorzi
Visual Grounding Generative AI Model Numerical Data Automatic Counting Human Judgment Visual Stimulus

January 3, 2024

Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers
Aleksandar Stanić, Sergi Caelles, Michael Tschannen
Large Language Model Zero Shot Visual Question Answering Visual Grounding Visual Reasoning Context Example Human Programmer

December 29, 2023

Bridging Modality Gap for Visual Grounding with Effecitve Cross-modal Distillation
Jiaxi Wang, Wenhui Hu, Xueyang Liu, Beihu Wu, Yuting Qiu, YingYing Cai
Multi Modal Visual Grounding Cross Modal Distillation Modality Gap

December 26, 2023

Detection-based Intermediate Supervision for Visual Question Answering
Yuhang Liu, Daowan Peng, Wei Wei, Yuanyuan Fu, Wenfeng Xie, Dangyang Chen
Visual Question Answering Visual Grounding Neural Module Answer Prediction Intermediate Supervision Compositional Question

December 23, 2023

Cycle-Consistency Learning for Captioning and Grounding
Ning Wang, Jiajun Deng, Mingbo Jia
Visual Grounding Generated Caption Captioning Model Grounding Network Cycle Consistency Captioning Benchmark

December 22, 2023

GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language Pre-training and Open-Vocabulary Object Detection
Haozhan Shen, Tiancheng Zhao, Mingwei Zhu, Jianwei Yin
Zero Shot Vision Language Visual Grounding Open Vocabulary Object Detection

December 19, 2023

December 15, 2023

Weakly-Supervised 3D Visual Grounding based on Visual Linguistic Alignment
Xiaoxu Xu, Yitian Yuan, Qiudan Zhang, Wenhui Wu, Zequn Jie, Lin Ma, Xu Wang
Visual Grounding Dense Visual Correspondence

December 13, 2023

Mono3DVG: 3D Visual Grounding in Monocular Images
Yang Zhan, Yuan Yuan, Zhitong Xiong
3D Object Visual Grounding RGB Image Monocular Image Geometric Cue

December 8, 2023

Visual Grounding of Whole Radiology Reports for 3D CT Images
Akimichi Ichinose, Taro Hatsutani, Keigo Nakamura, Yoshiro Kitamura, Satoshi Iizuka, Edgar Simo-Serra, Shoji Kido, Noriyuki Tomiyama
Visual Grounding CT Image Radiology Report 3d Ct Anatomical Segmentation

December 7, 2023

Improved Visual Grounding through Self-Consistent Explanations
Ruozhen He, Paola Cascante-Bonilla, Ziyan Yang, Alexander C. Berg, Vicente Ordonez
Visual Grounding Gradient Based Visual Explanation Vision and Language Explanation Map

December 6, 2023

GPT-4 Enhanced Multimodal Grounding for Autonomous Driving: Leveraging Cross-Modal Attention with Large Language Models
Haicheng Liao, Huanming Shen, Zhenning Li, Chengyue Wang, Guofa Li, Yiming Bie, Chengzhong Xu
Autonomous Driving Autonomous Vehicle GPT 4 Visual Grounding Cross Modal Attention Visual Context Object Grounding

December 5, 2023

LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models
Hao Zhang, Hongyang Li, Feng Li, Tianhe Ren, Xueyan Zou, Shilong Liu, Shijia Huang, Jianfeng Gao, Lei Zhang, Chunyuan Li, Jianwei Yang
Language Model Large Multimodal Model Visual Grounding Large Multi Modal Model

December 4, 2023

Aligning and Prompting Everything All at Once for Universal Visual Perception
Yunhang Shen, Chaoyou Fu, Peixian Chen, Mengdan Zhang, Ke Li, Xing Sun, Yunsheng Wu, Shaohui Lin, Rongrong Ji
Visual Grounding Cross Modality Fusion Universal Visual Perception

December 3, 2023

Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models
Andrés Villa, Juan Carlos León Alcázar, Alvaro Soto, Bernard Ghanem
Zero Shot Fine Grained Visual Grounding LangId Magic Spell Global Visual 2 Dimensional Vision Language Model

November 26, 2023

Visual Programming for Zero-shot Open-Vocabulary 3D Visual Grounding
Zhihao Yuan, Jinke Ren, Chun-Mei Feng, Hengshuang Zhao, Shuguang Cui, Zhen Li
Visual Grounding 3D Object Detector Visual Programming