Text to Image Synthesis

Text-to-image synthesis aims to generate realistic and stylistically consistent images from textual descriptions, leveraging advancements in deep learning. Current research emphasizes improving model scalability (e.g., using Mixture-of-Experts architectures), enhancing controllability through techniques like frequency band substitution and layout-conditional generation, and developing more robust evaluation metrics that assess both image quality and semantic alignment with the input text. This field is significant for its potential applications in creative content generation, digital art, and various scientific domains requiring visual data synthesis from textual information, driving ongoing efforts to improve both the efficiency and fidelity of these models.

Papers

November 28, 2023

Reason out Your Layout: Evoking the Layout Master from Large Language Models for Text-to-Image Synthesis
Xiaohui Chen, Yongfei Liu, Yingxiang Yang, Jianbo Yuan, Quanzeng You, Li-Ping Liu, Hongxia Yang
Generative Model Text to Image Text to Image Synthesis Reason Giving Layout Generation Optimal Layout Generative Image Model

November 20, 2023

An Image is Worth Multiple Words: Multi-attribute Inversion for Constrained Text-to-Image Synthesis
Aishwarya Agarwal, Srikrishna Karanam, Tripti Shukla, Balaji Vasan Srinivasan
Denoising Process Text to Image Synthesis Multiple Embeddings Worth Multiple Word Multi Attribute Attribute Disentanglement

November 19, 2023

Quality and Quantity: Unveiling a Million High-Quality Images for Text-to-Image Synthesis in Fashion Design
Jia Yu, Lichao Zhang, Zijie Chen, Fayu Pan, MiaoMiao Wen, Yuming Yan, Fangsheng Weng, Shuai Zhang, Lili Pan, Zhenzhong Lan
Quality Issue Text to Image Synthesis Quantity Aware Fashion Domain Fashion Design

November 14, 2023

UFOGen: You Forward Once Large Scale Text-to-Image Generation via Diffusion GANs
Yanwu Xu, Yang Zhao, Zhisheng Xiao, Tingbo Hou
Text to Image Diffusion Model Text to Image Synthesis Diffusion GAN Efficient Generative Large Scale Text to Image

November 12, 2023

BeautifulPrompt: Towards Automatic Prompt Engineering for Text-to-Image Synthesis
Tingfeng Cao, Chengyu Wang, Bingyan Liu, Ziheng Wu, Jinhui Zhu, Jun Huang
Text to Image Synthesis Diffusion Based Generative Automatic Prompt Engineering

October 13, 2023

Hypernymy Understanding Evaluation of Text-to-Image Models via WordNet Hierarchy
Anton Baryshnikov, Max Ryabinin
Supervised ImageNet Text to Image Model Text to Image Synthesis Chinese WordNet English WordNet

October 5, 2023

Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and Latent Diffusion
Anton Razzhigaev, Arseniy Shakhmatov, Anastasia Maltseva, Vladimir Arkhipkin, Igor Pavlov, Ilya Ryabov, Angelina Kuts, Alexander Panchenko, Andrey Kuznetsov, Denis Dimitrov
Text to Image Generation Text to Image Synthesis Latent Diffusion Image Prior

October 3, 2023

TP2O: Creative Text Pair-to-Object Generation using Balance Swap-Sampling
Jun Li, Zedong Zhang, Jian Yang
Faithful Generation Text to Image Synthesis New Combination Combinatorial Approach Creative Writing Balanced Sampling

September 13, 2023

DreamStyler: Paint by Style Inversion with Text-to-Image Diffusion Models
Namhyuk Ahn, Junsoo Lee, Chunggi Lee, Kunhee Kim, Daesik Kim, Seung-Hun Nam, Kibeom Hong
Text to Image Diffusion Model Style Transfer Image Synthesis Text to Image Synthesis Textual Inversion

September 12, 2023

Beyond Generation: Harnessing Text to Image Models for Object Detection and Segmentation
Yunhao Ge, Jiashu Xu, Brian Nlong Zhao, Neel Joshi, Laurent Itti, Vibhav Vineet
Segmentation Based Approach Faithful Generation Text to Image Synthesis Image Modeling Foreground Object Mask

September 11, 2023

PAI-Diffusion: Constructing and Serving a Family of Open Chinese Diffusion Models for Text-to-image Synthesis on the Cloud
Chengyu Wang, Zhongjie Duan, Bingyan Liu, Xinyi Zou, Cen Chen, Kui Jia, Jun Huang
Text to Image Synthesis Cloud Computing Model Checkpoint

August 31, 2023

Any-Size-Diffusion: Toward Efficient Text-Driven Synthesis for Any-Size HD Images
Qingping Zheng, Yuanfan Guo, Jiankang Deng, Jianhua Han, Ying Li, Songcen Xu, Hang Xu
High Resolution Image Text to Image Synthesis Text Driven Synthesis Image Size Compositional Problem

August 16, 2023

August 11, 2023

Masked-Attention Diffusion Guidance for Spatially Controlling Text-to-Image Generation
Yuki Endo
Text to Image Diffusion Model Text to Image Generation Text to Image Text to Image Synthesis Semantic Mask Attention Mask Dynamic Attention Guided Diffusion

July 20, 2023

BoxDiff: Text-to-Image Synthesis with Training-Free Box-Constrained Diffusion
Jinheng Xie, Yuexiang Li, Yawen Huang, Haozhe Liu, Wentian Zhang, Yefeng Zheng, Mike Zheng Shou
Diffusion Model Text to Image Diffusion Model Text to Image Synthesis Synthesized Image Mask Pair Training Free Diffusion Layout Annotation

July 4, 2023

SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis
Dustin Podell, Zion English, Kyle Lacey, Andreas Blattmann, Tim Dockhorn, Jonas Müller, Joe Penna, Robin Rombach
Latent Diffusion Model Stable Diffusion Model Training Text to Image Synthesis High Resolution Image Synthesis Image Generator

June 30, 2023

Counting Guidance for High Fidelity Text-to-Image Synthesis
Wonjun Kang, Kevin Galim, Hyung Il Koo, Nam Ik Cho
Text to Image Diffusion Model Text to Image Generation Text to Image Synthesis Automatic Counting Text Guided Diffusion Model High Fidelity Mask

June 26, 2023

A-STAR: Test-time Attention Segregation and Retention for Text-to-image Synthesis
Aishwarya Agarwal, Srikrishna Karanam, K J Joseph, Apoorv Saxena, Koustava Goswami, Balaji Vasan Srinivasan
Text to Image Diffusion Model Text to Image Synthesis Customer Retention

June 15, 2023

Human Preference Score v2: A Solid Benchmark for Evaluating Human Preferences of Text-to-Image Synthesis
Xiaoshi Wu, Yiming Hao, Keqiang Sun, Yixiong Chen, Feng Zhu, Rui Zhao, Hongsheng Li
Generative Model Text to Image Model Text to Image Text to Image Synthesis Human Preference Benchmark Study

Text to Image Synthesis

Papers

Reason out Your Layout: Evoking the Layout Master from Large Language Models for Text-to-Image Synthesis

An Image is Worth Multiple Words: Multi-attribute Inversion for Constrained Text-to-Image Synthesis

Quality and Quantity: Unveiling a Million High-Quality Images for Text-to-Image Synthesis in Fashion Design

UFOGen: You Forward Once Large Scale Text-to-Image Generation via Diffusion GANs

BeautifulPrompt: Towards Automatic Prompt Engineering for Text-to-Image Synthesis

Hypernymy Understanding Evaluation of Text-to-Image Models via WordNet Hierarchy

Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and Latent Diffusion

TP2O: Creative Text Pair-to-Object Generation using Balance Swap-Sampling

DreamStyler: Paint by Style Inversion with Text-to-Image Diffusion Models

Beyond Generation: Harnessing Text to Image Models for Object Detection and Segmentation

PAI-Diffusion: Constructing and Serving a Family of Open Chinese Diffusion Models for Text-to-image Synthesis on the Cloud

Any-Size-Diffusion: Toward Efficient Text-Driven Synthesis for Any-Size HD Images

Likelihood-Based Text-to-Image Evaluation with Patch-Level Perceptual and Semantic Credit Assignment

Learning to Generate Semantic Layouts for Higher Text-Image Correspondence in Text-to-Image Synthesis

Masked-Attention Diffusion Guidance for Spatially Controlling Text-to-Image Generation

BoxDiff: Text-to-Image Synthesis with Training-Free Box-Constrained Diffusion

SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis

Counting Guidance for High Fidelity Text-to-Image Synthesis

A-STAR: Test-time Attention Segregation and Retention for Text-to-image Synthesis

Human Preference Score v2: A Solid Benchmark for Evaluating Human Preferences of Text-to-Image Synthesis