Panoptic Narrative Grounding

Panoptic narrative grounding (PNG) aims to precisely align textual descriptions (narratives) with corresponding image regions, generating pixel-accurate segmentations for all objects and stuff mentioned. Current research heavily utilizes diffusion models and large multimodal models, often employing techniques like cross-attention mechanisms, deformable attention, and cascading collaborative learning to improve the accuracy and efficiency of this many-to-many alignment problem. These advancements are significant because accurate image-text alignment is crucial for improving AI's understanding of complex scenes and facilitating more natural human-computer interaction, with applications in areas like image captioning and visual question answering.

Papers

September 12, 2024

Dynamic Prompting of Frozen Text-to-Image Diffusion Models for Panoptic Narrative Grounding
Hongyu Li, Tianrui Hui, Zihan Ding, Jing Zhang, Bin Ma, Xiaoming Wei, Jizhong Han, Si Liu
Fine Grained Text to Image Diffusion Model Panoptic Segmentation Panoptic Narrative Grounding Dynamic Prompting

July 7, 2024

Exploring Phrase-Level Grounding with Text-to-Image Diffusion Model
Danni Yang, Ruohan Dong, Jiayi Ji, Yiwei Ma, Haowei Wang, Xiaoshuai Sun, Rongrong Ji
Text to Image Diffusion Model Visual Grounding Segmentation Mask Panoptic Narrative Grounding Phrase Grounding Temporal Sentence

June 9, 2024

F-LMM: Grounding Frozen Large Multimodal Models
Size Wu, Sheng Jin, Wenwei Zhang, Lumin Xu, Wentao Liu, Wei Li, Chen Change Loy
Large Multimodal Model Visual Grounding Multimodal Question Answering Panoptic Narrative Grounding

November 2, 2023

Enriching Phrases with Coupled Pixel and Object Contexts for Panoptic Narrative Grounding
Tianrui Hui, Zihan Ding, Junshi Huang, Xiaoming Wei, Xiaolin Wei, Jiao Dai, Jizhong Han, Si Liu
Contrastive Loss Tetromino Pixel Panoptic Narrative Grounding Object Context

October 27, 2023

Semi-Supervised Panoptic Narrative Grounding
Danni Yang, Jiayi Ji, Xiaoshuai Sun, Haowei Wang, Yinan Li, Yiwei Ma, Rongrong Ji
Image Text Pair Semi Supervised Segmentation Panoptic Narrative Grounding

October 25, 2023

Context Does Matter: End-to-end Panoptic Narrative Grounding with Deformable Attention Refined Matching Network
Yiming Lin, Xiao-Bo Jin, Qiufeng Wang, Kaizhu Huang
Context Information Visual Grounding Artefact PARTICLE Deformable Attention Panoptic Narrative Grounding

October 17, 2023

NICE: Improving Panoptic Narrative Detection and Segmentation with Cascading Collaborative Learning
Haowei Wang, Jiayi Ji, Tianyu Guo, Yilong Yang, Yiyi Zhou, Xiaoshuai Sun, Rongrong Ji
Segmentation Based Approach Visual Grounding Collaborative Learning Barycenter Driven Localization Panoptic Narrative Grounding

January 9, 2023

Towards Real-Time Panoptic Narrative Grounding by an End-to-End Grounding Network
Haowei Wang, Jiayi Ji, Yiyi Zhou, Yongjian Wu, Xiaoshuai Sun
Attention Model Grounding Network Semantic Loss Panoptic Narrative Grounding

August 11, 2022

PPMN: Pixel-Phrase Matching Network for One-Stage Panoptic Narrative Grounding
Zihan Ding, Zi-han Ding, Tianrui Hui, Junshi Huang, Xiaoming Wei, Xiaolin Wei, Si Liu
Panoptic Segmentation Panoptic Narrative Grounding

Panoptic Narrative Grounding

Papers

Dynamic Prompting of Frozen Text-to-Image Diffusion Models for Panoptic Narrative Grounding

Exploring Phrase-Level Grounding with Text-to-Image Diffusion Model

F-LMM: Grounding Frozen Large Multimodal Models

Enriching Phrases with Coupled Pixel and Object Contexts for Panoptic Narrative Grounding

Semi-Supervised Panoptic Narrative Grounding

Context Does Matter: End-to-end Panoptic Narrative Grounding with Deformable Attention Refined Matching Network

NICE: Improving Panoptic Narrative Detection and Segmentation with Cascading Collaborative Learning

Towards Real-Time Panoptic Narrative Grounding by an End-to-End Grounding Network

PPMN: Pixel-Phrase Matching Network for One-Stage Panoptic Narrative Grounding