Compositional Image Generation

Compositional image generation focuses on creating images that accurately reflect the combination of multiple concepts described in text or other input modalities. Current research emphasizes improving the ability of models, often based on diffusion processes or discrete generative models, to handle complex compositions involving objects, attributes, and spatial relationships, often using large vision-language models for evaluation and refinement. This area is significant because it pushes the boundaries of AI's understanding of visual semantics and has implications for various applications, including advanced image editing, content creation, and more robust visual question answering systems.

Papers

January 2, 2025

Object-level Visual Prompts for Compositional Image Generation
Gaurav Parmar, Or Patashnik, Kuan-Chieh Wang, Daniil Ostashev, Srinivasa Narasimhan, Jun-Yan Zhu, Daniel Cohen-Or, Kfir Aberman
Text to Image Diffusion Model Text to Image Generation Cross Attention Compositional Image Generation

December 11, 2024

LAION-SG: An Enhanced Large-Scale Dataset for Training Complex Image-Text Models with Structural Annotations
Zejian Li, Chenye Meng, Yize Li, Ling Yang, Shengyuan Zhang, Jiarui Ma, Jiayi Li, Guang Yang, Changyuan Yang, Zhiyuan Yang, Jinxiong Chang, Lingyun Sun
Text to Image Image Text Pair Scene Graph Image Text Model Training Environment Compositional Image Generation Neural Scene Graph

November 12, 2024

MureObjectStitch: Multi-reference Image Composition
Jiaxuan Chen, Bo Zhang, Qingdong He, Jinlong Peng, Li Niu
MAESTRO Dataset Reference Image Image Composition Composite Image Compositional Image Generation

August 26, 2024

ConceptMix: A Compositional Image Generation Benchmark with Controllable Difficulty
Xindi Wu, Dingli Yu, Yangsibo Huang, Olga Russakovsky, Sanjeev Arora
Visual Concept Compositional Image Generation Difficulty Score Multi Concept Composition

May 10, 2024

Controllable Image Generation With Composed Parallel Token Prediction
Jamie Stirling, Noura Al-Moubayed
Image Generation Text to Image Generation Compositional Generalization Discrete Generative Model Compositional Image Generation

October 10, 2023

Improving Compositional Text-to-image Generation with Large Vision-Language Models
Song Wen, Guian Fang, Renrui Zhang, Peng Gao, Hao Dong, Dimitris Metaxas
Large Vision Language Model Text to Image Model Image Text Alignment Compositional Text to Image Compositional Image Generation

September 25, 2023

Chop & Learn: Recognizing and Generating Object-State Compositions
Nirat Saini, Hanyu Wang, Archana Swaminathan, Vinoj Jayasundara, Bo He, Kamal Gupta, Abhinav Shrivastava
Cut and Approximate Object State Video Task Compositional Image Generation Compositional Action Recognition State Object Composition

June 1, 2023

Learning Disentangled Prompts for Compositional Image Synthesis
Kihyuk Sohn, Albert Shaw, Yuan Hao, Han Zhang, Luisa Polania, Huiwen Chang, Lu Jiang, Irfan Essa
LeArning Abstract Generative Model Complex Prompt Compositional Generalization Visual Prompt Tuning Compositional Image Generation

April 25, 2023

Exploring Compositional Visual Generation with Latent Classifier Guidance
Changhao Shi, Haomiao Ni, Kai Li, Shaobo Han, Mingfu Liang, Martin Renqiang Min
Latent Diffusion Model Pre Trained Generative Model Compositional Task Compositional Image Generation Classifier Guidance

April 5, 2023

A Diffusion-based Method for Multi-turn Compositional Image Generation
Chao Wang
Generative Adversarial Network Diffusion Based Conditional Denoising Diffusion Compositional Image Generation

June 3, 2022

Compositional Visual Generation with Composable Diffusion Models
Nan Liu, Shuang Li, Yilun Du, Antonio Torralba, Joshua B. Tenenbaum
Diffusion Model Image Generation Text Guided Diffusion Model Compositional Generation Compositional Image Generation