Visual Grounding

Visual grounding is the task of connecting natural language descriptions to corresponding regions within an image or 3D scene. Current research focuses on improving the accuracy and efficiency of visual grounding models, often employing transformer-based architectures and leveraging large multimodal language models (MLLMs) for enhanced feature fusion and reasoning capabilities. This field is crucial for advancing embodied AI, enabling robots and other agents to understand and interact with the world through natural language, and has significant implications for applications such as robotic manipulation, visual question answering, and medical image analysis.

Papers

September 3, 2023

VGDiffZero: Text-to-image Diffusion Models Can Be Zero-shot Visual Grounders
Xuyang Liu, Siteng Huang, Yachen Kang, Honggang Chen, Donglin Wang
Text to Image Diffusion Model Visual Grounding

August 24, 2023

HuBo-VLM: Unified Vision-Language Model designed for HUman roBOt interaction tasks
Zichao Dong, Weikun Zhang, Xufeng Huang, Hang Ji, Xin Zhan, Junbo Chen
Vision Language Model Human Robot Interaction Visual Grounding Physical Human Robot Interaction

August 23, 2023

A Unified Framework for 3D Point Cloud Visual Grounding
Haojia Lin, Yongdong Luo, Xiawu Zheng, Lijiang Li, Fei Chao, Taisong Jin, Donghao Luo, Yan Wang, Liujuan Cao, Rongrong Ji
Unified Framework Visual Grounding Expression Segmentation 3D Referring Expression

August 22, 2023

Target-Grounded Graph-Aware Transformer for Aerial Vision-and-Dialog Navigation
Yifei Su, Dong An, Yuan Xu, Kehan Chen, Yan Huang
Visual Grounding Object Grounding Graph Aware Transformer Autonomous Aerial Navigation Aerial Navigation

August 21, 2023

VQA Therapy: Exploring Answer Differences by Visually Grounding Answers
Chongyan Chen, Samreen Anjum, Danna Gurari
Visual Grounding Visual Question Qualitative Difference Multiple Plausible Answer Medical VQA

August 18, 2023

Language-Guided Diffusion Model for Visual Grounding
Sijia Chen, Baochun Li
Visual Grounding Cross Modal Alignment Text Guided Diffusion Ground Truth Box

August 8, 2023

3D-VisTA: Pre-trained Transformer for 3D Vision and Text Alignment
Ziyu Zhu, Xiaojian Ma, Yixin Chen, Zhidong Deng, Siyuan Huang, Qing Li
Transformer Based Visual Grounding Language Grounding Text Alignment

July 25, 2023

3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding
Zehan Wang, Haifeng Huang, Yang Zhao, Linjun Li, Xize Cheng, Yichen Zhu, Aoxiong Yin, Zhou Zhao
Point Cloud Visual Grounding Multi Head Relative Positional

July 23, 2023

Iterative Robust Visual Grounding with Masked Reference based Centerpoint Supervision
Menghao Li, Chunlei Wang, Wenquan Feng, Shuchang Lyu, Guangliang Cheng, Xiangtai Li, Binghao Liu, Qi Zhao
Visual Grounding Vision Language Fusion Keypoint Tracking

July 21, 2023

Advancing Visual Grounding with Scene Knowledge: Benchmark and Method
Zhihong Chen, Ruifei Zhang, Yibing Song, Xiang Wan, Guanbin Li
Fine Grained New Benchmark Practical Method Visual Grounding Vision and Language Model Scene Knowledge

July 18, 2023

Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly Supervised 3D Visual Grounding
Zehan Wang, Haifeng Huang, Yang Zhao, Linjun Li, Xize Cheng, Yichen Zhu, Aoxiong Yin, Zhou Zhao
Visual Grounding Semantic Matching Sentence Pair 3D Visual Grounding

July 17, 2023

BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs
Yang Zhao, Zhijie Lin, Daquan Zhou, Zilong Huang, Jiashi Feng, Bingyi Kang
Visual Grounding Multimodal LLM Multi Modal Understanding Multi Modal Input Multi Modal LLM

July 12, 2023

June 13, 2023

Top-Down Framework for Weakly-supervised Grounded Image Captioning
Chen Cai, Suchen Wang, Kim-hui Yap, Yi Wang
Object Detector Image Captioning Visual Grounding Generated Caption Visual Token Bottom Up Framework

June 10, 2023

Referring to Screen Texts with Voice Assistants
Shruti Bhargava, Anand Dhoot, Ing-Marie Jonsson, Hoang Long Nguyen, Alkesh Patel, Hong Yu, Vincent Renkens
Visual Grounding Voice Assistant Screen Content Text Reuse

June 6, 2023

Language Adaptive Weight Generation for Multi-task Visual Grounding
Wei Su, Peihan Miao, Huanzhang Dou, Gaoang Wang, Liang Qiao, Zheyang Li, Xi Li
Visual Grounding Active Perception Single View Extraction Backbone Weight Generation

May 24, 2023

Measuring Faithful and Plausible Visual Grounding in VQA
Daniel Reich, Felix Putze, Tanja Schultz
Visual Question Answering Visual Grounding 3d Vqa VQA System

May 23, 2023

Cross3DVG: Cross-Dataset 3D Visual Grounding on Different RGB-D Scans
Taiki Miyanishi, Daichi Azuma, Shuhei Kurita, Motoki Kawanabe
Visual Grounding RGB D Image 3D Visual Grounding

May 19, 2023

TreePrompt: Learning to Compose Tree Prompts for Explainable Visual Grounding
Chenchi Zhang, Jun Xiao, Lei Chen, Jian Shao, Long Chen
Visual Grounding Prompt Generation