Conditioned Caption

Conditioned captioning focuses on generating image descriptions that are tailored to specific needs or contexts, going beyond simple image captioning. Current research emphasizes improving the accuracy and diversity of generated captions by incorporating factors like speaking style, detected medical concepts, or explicit instructions, often leveraging transformer-based encoder-decoder architectures and fine-tuning pre-trained vision-language models. This work is significant for advancing both the capabilities of artificial intelligence in image understanding and its applications in fields like healthcare, where accurate and informative image descriptions are crucial for diagnosis and communication.

Papers

November 13, 2024

Which Viewpoint Shows it Best? Language for Weakly Supervising View Selection in Multi-view Videos
Sagnik Majumder, Tushar Nagarajan, Ziad Al-Halah, Reina Pradhan, Kristen Grauman
Human Language Synthesized View Pseudo Labeling View Selection Multi View Video Conditioned Caption

June 27, 2024

Factor-Conditioned Speaking-Style Captioning
Atsushi Ando, Takafumi Moriya, Shota Horiguchi, Ryo Masumura
Speaking Style Conditioned Caption

June 1, 2024

DS@BioMed at ImageCLEFmedical Caption 2024: Enhanced Attention Mechanisms in Medical Caption Generation through Concept Detection Integration
Nhi Ngoc-Yen Nguyen, Le-Huy Tu, Dieu-Phuong Nguyen, Nhat-Tan Do, Minh Triet Thai, Bao-Thien Nguyen-Tat
Medical Image Attention Mechanism Concept Detection Conditioned Caption

May 27, 2024

UIT-DarkCow team at ImageCLEFmedical Caption 2024: Diagnostic Captioning for Radiology Images Efficiency with Transformer Models
Quan Van Nguyen, Huy Quang Pham, Dan Quang Tran, Thang Kien-Bao Nguyen, Nhat-Hao Nguyen-Dang, Bao-Thien Nguyen-Tat
Medical Image Transformer Model Conditioned Caption Diagnostic Caption UIT DarkCow Team

April 1, 2024

Learning by Correction: Efficient Tuning Task for Zero-Shot Generative Vision-Language Reasoning
Rongjie Li, Yu Wu, Xuming He
LeArning Abstract Zero Shot Related Task Language Correction Generative Vision Language Model Vision Language Reasoning Zero Shot Vision Language Conditioned Caption

February 5, 2024

Image-Caption Encoding for Improving Zero-Shot Generalization
Eric Yang Yu, Christopher Liao, Sathvik Ravi, Theodoros Tsiligkaridis, Brian Kulis
Zero Shot Vision Language Model Strong Generalization Image Classification Image Captioning Conditioned Caption

August 12, 2023

VisIT-Bench: A Benchmark for Vision-Language Instruction Following Inspired by Real-World Use
Yonatan Bitton, Hritik Bansal, Jack Hessel, Rulin Shao, Wanrong Zhu, Anas Awadalla, Josh Gardner, Rohan Taori, Ludwig Schmidt
New Benchmark Real World Instruction Tuning Instruction Following MT Bench Instruction Following Model Conditioned Caption

June 9, 2023

Customizing General-Purpose Foundation Models for Medical Report Generation
Bang Yang, Asif Raza, Yuexian Zou, Tong Zhang
Vision Transformer Medical Image Medical Report Generation Prompt Customization Report Pair Conditioned Caption

Conditioned Caption

Papers

Which Viewpoint Shows it Best? Language for Weakly Supervising View Selection in Multi-view Videos

Factor-Conditioned Speaking-Style Captioning

DS@BioMed at ImageCLEFmedical Caption 2024: Enhanced Attention Mechanisms in Medical Caption Generation through Concept Detection Integration

UIT-DarkCow team at ImageCLEFmedical Caption 2024: Diagnostic Captioning for Radiology Images Efficiency with Transformer Models

Learning by Correction: Efficient Tuning Task for Zero-Shot Generative Vision-Language Reasoning

Image-Caption Encoding for Improving Zero-Shot Generalization

VisIT-Bench: A Benchmark for Vision-Language Instruction Following Inspired by Real-World Use

Customizing General-Purpose Foundation Models for Medical Report Generation