Visual Grounding

Visual grounding is the task of connecting natural language descriptions to corresponding regions within an image or 3D scene. Current research focuses on improving the accuracy and efficiency of visual grounding models, often employing transformer-based architectures and leveraging large multimodal language models (MLLMs) for enhanced feature fusion and reasoning capabilities. This field is crucial for advancing embodied AI, enabling robots and other agents to understand and interact with the world through natural language, and has significant implications for applications such as robotic manipulation, visual question answering, and medical image analysis.

Papers

November 26, 2023

November 21, 2023

Enhancing Visual Grounding and Generalization: A Multi-Task Cycle Training Approach for Vision-Language Models
Xiaoyu Yang, Lijian Xu, Hao Sun, Hongsheng Li, Shaoting Zhang
Vision Language Model Strong Generalization Visual Grounding Multi Task Training Large Multi Modality Model

November 9, 2023

Language-guided Robot Grasping: CLIP-based Referring Grasp Synthesis in Clutter
Georgios Tziafas, Yucheng Xu, Arushi Goel, Mohammadreza Kasaei, Zhibin Li, Hamidreza Kasaei
Visual Grounding Functional Grasping Dense Clutter Grasp Pose Grasp Synthesis DoF Grasp Pose Language Guided

November 5, 2023

Augment the Pairs: Semantics-Preserving Image-Caption Pair Augmentation for Grounding-Based Vision and Language Models
Jingru Yi, Burak Uzkent, Oana Ignat, Zili Li, Amanmeet Garg, Xiang Yu, Linda Liu
Language Model Visual Grounding Image Caption Pair Similar Pair Visual Correspondence

October 28, 2023

CityRefer: Geography-aware 3D Visual Grounding Dataset on City-scale Point Cloud Data
Taiki Miyanishi, Fumiya Kitamori, Shuhei Kurita, Jungdae Lee, Motoaki Kawanabe, Nakamasa Inoue
Point Cloud Data Set Visual Grounding Urban Environment 3D Map

October 26, 2023

GROOViST: A Metric for Grounding Objects in Visual Storytelling
Aditya K Surikuchi, Sandro Pezzelle, Raquel Fernández
Visual Grounding North Star Metric Visual Storytelling Image Sequence Object Grounding Text Alignment Temporal Misalignment

October 25, 2023

Context Does Matter: End-to-end Panoptic Narrative Grounding with Deformable Attention Refined Matching Network
Yiming Lin, Xiao-Bo Jin, Qiufeng Wang, Kaizhu Huang
Context Information Visual Grounding Artefact PARTICLE Deformable Attention Panoptic Narrative Grounding

October 22, 2023

OV-VG: A Benchmark for Open-Vocabulary Visual Grounding
Chunlei Wang, Wenquan Feng, Xiangtai Li, Guangliang Cheng, Shuchang Lyu, Binghao Liu, Lijiang Chen, Qi Zhao
New Benchmark Visual Grounding Open Vocabulary Open Vocabulary Object Detection Shot Localization

October 20, 2023

Visual Grounding Helps Learn Word Meanings in Low-Data Regimes
Chengxu Zhuang, Evelina Fedorenko, Jacob Andreas
Visual Grounding Neural Representation Word Representation Chaotic Regime Word Sens Word Learning

October 18, 2023

InViG: Benchmarking Interactive Visual Grounding with 500K Human-Robot Interactions
Hanbo Zhang, Jie Xu, Yuchen Mo, Tao Kong
Human Robot Interaction Visual Grounding K Content Disambiguation Accuracy Visual Disambiguation

October 17, 2023

October 10, 2023

CoT3DRef: Chain-of-Thoughts Data-Efficient 3D Visual Grounding
Eslam Abdelrahman, Mohamed Ayman, Mahmoud Ahmed, Habib Slim, Mohamed Elhoseiny
Visual Grounding 3D Datasets 3D Visual Grounding

October 9, 2023

Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models
Archiki Prasad, Elias Stengel-Eskin, Mohit Bansal
Zero Shot Vision Language Model Large Vision Language Model Yes No Question Visual Grounding Vision Language Task

September 21, 2023

LLM-Grounder: Open-Vocabulary 3D Visual Grounding with Large Language Model as an Agent
Jianing Yang, Xuweiyi Chen, Shengyi Qian, Nikhil Madaan, Madhavan Iyengar, David F. Fouhey, Joyce Chai
Large Language Model Agent Smith Visual Grounding 3D Vision Language 3D Visual Grounding

September 11, 2023

Multi3DRefer: Grounding Text Description to Multiple 3D Objects
Yiming Zhang, ZeMing Gong, Angel X. Chang
3D Scene Visual Grounding 3D Model Visual Navigation Object Proposal Text Description Source 3D

September 8, 2023

Three Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding
Ozan Unal, Christos Sakaridis, Suman Saha, Fisher Yu, Luc Van Gool
3D Object Visual Grounding New Way Ground Plane

September 7, 2023

Visual Grounding

Papers

Visual Programming for Zero-shot Open-Vocabulary 3D Visual Grounding

PISA: Point-cloud-based Instructed Scene Augmentation

Enhancing Visual Grounding and Generalization: A Multi-Task Cycle Training Approach for Vision-Language Models

Language-guided Robot Grasping: CLIP-based Referring Grasp Synthesis in Clutter

Augment the Pairs: Semantics-Preserving Image-Caption Pair Augmentation for Grounding-Based Vision and Language Models

CityRefer: Geography-aware 3D Visual Grounding Dataset on City-scale Point Cloud Data

GROOViST: A Metric for Grounding Objects in Visual Storytelling

Context Does Matter: End-to-end Panoptic Narrative Grounding with Deformable Attention Refined Matching Network

OV-VG: A Benchmark for Open-Vocabulary Visual Grounding

Visual Grounding Helps Learn Word Meanings in Low-Data Regimes

InViG: Benchmarking Interactive Visual Grounding with 500K Human-Robot Interactions

Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V

NICE: Improving Panoptic Narrative Detection and Segmentation with Cascading Collaborative Learning

CoT3DRef: Chain-of-Thoughts Data-Efficient 3D Visual Grounding

Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models

LLM-Grounder: Open-Vocabulary 3D Visual Grounding with Large Language Model as an Agent

Multi3DRefer: Grounding Text Description to Multiple 3D Objects

Three Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding

Interpretable Visual Question Answering via Reasoning Supervision

DetermiNet: A Large-Scale Diagnostic Dataset for Complex Visually-Grounded Referencing using Determiners