Dense Captioning

Dense captioning aims to generate detailed, localized descriptions for multiple regions within an image or video, going beyond simple object labeling. Current research emphasizes developing unified frameworks that integrate object detection and caption generation, often employing transformer-based architectures and leveraging large-scale vision-language models for improved performance. This field is crucial for applications ranging from infrastructure assessment (e.g., pavement condition analysis) to assistive technologies for the visually impaired, and advancements are driving progress in both open-world object detection and visual question answering.

Papers

November 22, 2024

Whats in a Video: Factorized Autoregressive Decoding for Online Dense Video Captioning
AJ Piergiovanni, Dahun Kim, Michael S. Ryoo, Isaac Noble, Anelia Angelova
Source Video Video Captioning Dense Captioning Whole Video Micro Video

November 12, 2024

BLIP3-KALE: Knowledge Augmented Large-Scale Dense Captions
Anas Awadalla, Le Xue, Manli Shu, An Yan, Jun Wang, Senthil Purushwalkam, Sheng Shen, Hannah Lee, Oscar Lo, Jae Sung Park, Etash Guha, Silvio Savarese, Ludwig Schmidt, Yejin Choi, Caiming Xiong, Ran Xu
Vision Language Model Large Vision Language Model Vision Language Task Synthetic Caption Knowledge Augmentation Dense Captioning

August 7, 2024

PaveCap: The First Multimodal Framework for Comprehensive Pavement Condition Assessment with Dense Captioning and PCI Estimation
Blessing Agyei Kyem, Eugene Kofi Okrah Denteh, Joshua Kofi Asamoah, Armstrong Aboah
Ground Truth Estimation Task Multimodal Framework Dense Captioning Pavement Condition

July 9, 2024

Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions
Yu-Guan Hsieh, Cheng-Yu Hsieh, Shih-Ying Yeh, Louis Béthune, Hadi Pour Ansari, Pavan Kumar Anasosalu Vasu, Chun-Liang Li, Ranjay Krishna, Oncel Tuzel, Marco Cuturi
Vision Language Generated Caption Visual Description Visual Captioning Dense Captioning

April 17, 2024

Rethinking 3D Dense Caption and Visual Grounding in A Unified Framework through Prompt-based Localization
Yongdong Luo, Haojia Lin, Xiawu Zheng, Yigeng Jiang, Fei Chao, Jie Hu, Guannan Jiang, Songan Zhang, Rongrong Ji
Unified Framework Visual Grounding 3D Dense Captioning Dense Captioning

March 18, 2024

FlexCap: Generating Rich, Localized, and Flexible Captions in Images
Debidatta Dwibedi, Vidhi Jain, Jonathan Tompson, Andrew Zisserman, Yusuf Aytar
Vision Language Model Generating Rich Visual Captioning High Quality Caption Dense Captioning

November 5, 2023

Dense Video Captioning: A Survey of Techniques, Datasets and Evaluation Protocols
Iqra Qasim, Alexander Horsch, Dilip K. Prasad
Timely Survey Data Set Barzilai Borwein Technique Temporal Localization Untrimmed Video Dense Video Captioning Pre Trained Feature Extractor Dense Captioning Evaluation Protocol

March 4, 2023

CapDet: Unifying Dense Captioning and Open-World Detection Pretraining
Yanxin Long, Youpeng Wen, Jianhua Han, Hang Xu, Pengzhen Ren, Wei Zhang, Shen Zhao, Xiaodan Liang
Open World Dense Captioning

January 6, 2023

End-to-End 3D Dense Captioning with Vote2Cap-DETR
Sijin Chen, Hongyuan Zhu, Xin Chen, Yinjie Lei, Tao Chen, Gang YU
End to End Image Captioning 3D Dense Captioning Lw Detr Dense Caption Effective Transformer Dense Captioning

December 1, 2022

GRiT: A Generative Region-to-text Transformer for Object Understanding
Jialian Wu, Jianfeng Wang, Zhengyuan Yang, Zhe Gan, Zicheng Liu, Junsong Yuan, Lijuan Wang
Arbitrary Object Visual Encoder Object Level Dense Caption Dense Captioning

July 24, 2022

SAVCHOI: Detecting Suspicious Activities using Dense Video Captioning with Human Object Interactions
Ansh Mittal, Shuvam Ghosal, Rishibha Bansal
Real Time Human Object Interaction Surveillance Video Dense Video Captioning Suspicious Commenter Dense Captioning Dense Video

March 10, 2022

MORE: Multi-Order RElation Mining for Dense Captioning in 3D Scenes
Yang Jiao, Shaoxiang Chen, Zequn Jie, Jingjing Chen, Lin Ma, Yu-Gang Jiang
Image Captioning 3D Scene Graph Convolution 3D Dense Captioning Relation Discovery Dense Captioning Triplet Attention Relational Attention

February 10, 2022

Describing image focused in cognitive and visual details for visually impaired people: An approach to generating inclusive paragraphs
Daniel Louzada Fernandes, Marcos Henrique Fonseca Ribeiro, Fabio Ribeiro Cerqueira, Michel Melo Silva
Constructive Approach Person Name Visual Context Captioning Method Paragraph Speech Abstractive Summarisation Dense Captioning Visual Argument

December 2, 2021

D3Net: A Unified Speaker-Listener Architecture for 3D Dense Captioning and Visual Grounding
Dave Zhenyu Chen, Qirui Wu, Matthias Nießner, Angel X. Chang
Visual Grounding Caption Generation 3D Vision Language 3D Dense Captioning Dense Captioning

Dense Captioning

Papers

Whats in a Video: Factorized Autoregressive Decoding for Online Dense Video Captioning

BLIP3-KALE: Knowledge Augmented Large-Scale Dense Captions

PaveCap: The First Multimodal Framework for Comprehensive Pavement Condition Assessment with Dense Captioning and PCI Estimation

Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions

Rethinking 3D Dense Caption and Visual Grounding in A Unified Framework through Prompt-based Localization

FlexCap: Generating Rich, Localized, and Flexible Captions in Images

Dense Video Captioning: A Survey of Techniques, Datasets and Evaluation Protocols

CapDet: Unifying Dense Captioning and Open-World Detection Pretraining

End-to-End 3D Dense Captioning with Vote2Cap-DETR

GRiT: A Generative Region-to-text Transformer for Object Understanding

SAVCHOI: Detecting Suspicious Activities using Dense Video Captioning with Human Object Interactions

MORE: Multi-Order RElation Mining for Dense Captioning in 3D Scenes

Describing image focused in cognitive and visual details for visually impaired people: An approach to generating inclusive paragraphs

D3Net: A Unified Speaker-Listener Architecture for 3D Dense Captioning and Visual Grounding