3D Dense Captioning

3D dense captioning aims to automatically generate descriptive sentences for individual objects within 3D scenes, requiring both precise object localization and rich contextual understanding. Recent research heavily utilizes transformer-based encoder-decoder architectures, often employing strategies like late aggregation of contextual and instance-specific features or decoupling localization and caption generation into parallel processes to improve accuracy. This task is crucial for advancing 3D scene understanding and has significant implications for applications such as robotics, augmented reality, and accessibility technologies that require detailed scene descriptions.

3D Dense Captioning

Papers

MORE: Multi-Order RElation Mining for Dense Captioning in 3D Scenes

X-Trans2Cap: Cross-Modal Knowledge Transfer using Transformer for 3D Dense Captioning

D3Net: A Unified Speaker-Listener Architecture for 3D Dense Captioning and Visual Grounding