Text to Image Consistency

Text-to-image consistency focuses on aligning the visual content of generated images with their corresponding textual descriptions, a crucial challenge in visual-language models. Current research emphasizes improving this alignment through various techniques, including prompt optimization using large language models, reinforcement learning to fine-tune generative models (like diffusion and consistency models), and incorporating conditional controls to enhance detail and realism. These advancements are vital for mitigating misinformation spread by inconsistent text-image pairings and for creating more reliable and robust text-to-image generation systems across diverse applications.

Papers

December 18, 2024

What makes a good metric? Evaluating automatic metrics for text-to-image consistency
Candace Ross, Melissa Hall, Adriana Romero Soriano, Adina Williams
Language Model Text to Image Strong Consistency Model Performance Metric Library Automatic Metric Text to Image Consistency

April 28, 2024

Exposing Text-Image Inconsistency Using Diffusion Models
Mingzhen Huang, Shan Jia, Zhou Zhou, Yan Ju, Jialing Cai, Siwei Lyu
Diffusion Model Text to Image Diffusion Model Semantic Consistency Text Image Text to Image Consistency

March 26, 2024

Improving Text-to-Image Consistency via Automatic Prompt Optimization
Oscar Mañas, Pietro Astolfi, Melissa Hall, Candace Ross, Jack Urbanek, Adina Williams, Aishwarya Agrawal, Adriana Romero-Soriano, Michal Drozdzal
Generative Model Image Generation Text to Image Photorealistic Image Automatic Prompt Optimization Text to Image Consistency

March 25, 2024

RL for Consistency Models: Faster Reward Guided Text-to-Image Generation
Owen Oertell, Jonathan D. Chang, Yiyi Zhang, Kianté Brantley, Wen Sun
Reinforcement Learning Generative Model Image Generation Text to Image Generation Consistency Model Generative Training Text to Image Consistency

December 12, 2023

CCM: Adding Conditional Controls to Text-to-Image Consistency Models
Jie Xiao, Kai Zhu, Han Zhang, Zhiheng Liu, Yujun Shen, Yu Liu, Xueyang Fu, Zheng-Jun Zha
Generative Model Consistency Model Consistency Training Conditional Control Semantic Control Text to Image Consistency

September 8, 2023

MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask
Yupeng Zhou, Daquan Zhou, Zuo-Liang Zhu, Yaxing Wang, Qibin Hou, Jiashi Feng
Latent Diffusion Model Pre Trained Diffusion Model Adaptive Mask Text to Image Consistency

October 27, 2022

SSD: Towards Better Text-Image Consistency Metric in Text-to-Image Generation
Zhaorui Tan, Xi Yang, Zihan Ye, Qiufeng Wang, Yuyao Yan, Anh Nguyen, Kaizhu Huang
GAN Model Text to Image Generation Text Image Neighbor Iou Voting SSD Detector Text to Image Consistency

August 20, 2022

Vision-Language Matching for Text-to-Image Synthesis via Generative Adversarial Networks
Qingrong Cheng, Keyu Wen, Xiaodong Gu
Generative Adversarial Network Text to Image Synthesis Text to Image Consistency

August 15, 2022

Memory-Driven Text-to-Image Generation
Bowen Li, Philip H. S. Torr, Thomas Lukasiewicz
Generative Adversarial Network Text to Image Generation Memory Augmented Memory Bank Text to Image Consistency