Text Driven Image Manipulation

Text-driven image manipulation uses natural language descriptions to modify images, aiming to create flexible and user-friendly image editing tools. Current research focuses on improving the accuracy and efficiency of these manipulations, often employing diffusion models, transformer networks, and vision-language models like CLIP, with a strong emphasis on disentangling editing effects and achieving real-time performance. This field is significant for its potential to revolutionize image editing workflows across various applications, from creative design to medical imaging, by offering intuitive and powerful control over image content and style.

Papers

December 2, 2024

Unleashing In-context Learning of Autoregressive Models for Few-shot Image Manipulation
Bolin Lai, Felix Juefei-Xu, Miao Liu, Xiaoliang Dai, Nikhil Mehta, Chenguang Zhu, Zeyi Huang, James M. Rehg, Sangmin Lee, Ning Zhang, Tong Xiao
Context Learning Shot Learning Image Editing Autoregressive Model Exemplar Image Text Driven Image Manipulation

July 30, 2024

UniProcessor: A Text-induced Unified Low-level Image Processor
Huiyu Duan, Xiongkuo Min, Sijing Wu, Wei Shen, Guangtao Zhai
Image Processing Document Parsing Low Level Vision Task Text Driven Image Manipulation

December 18, 2023

TIP: Text-Driven Image Processing with Semantic and Restoration Instructions
Chenyang Qi, Zhengzhong Tu, Keren Ye, Mauricio Delbracio, Peyman Milanfar, Qifeng Chen, Hossein Talebi
Image Restoration Semantic Description Restoration Quality Text Guided Diffusion Model TIP Generation Text Driven Image Manipulation Fine Grained Image Editing Detail Restoration

April 10, 2023

Towards Real-time Text-driven Image Manipulation with Unconditional Diffusion Models
Nikita Starodubcev, Dmitry Baranchuk, Valentin Khrulkov, Artem Babenko
Diffusion Model High Quality Image Diffusion Based Method Unconditional Diffusion Model Diffusion Based Image Editing Text Driven Image Manipulation

March 11, 2023

DeltaEdit: Exploring Text-free Training for Text-Driven Image Manipulation
Yueming Lyu, Tianwei Lin, Fu Li, Dongliang He, Jing Dong, Tieniu Tan
Training Free Conditional Generative CLIP Embeddings Text Driven Image Manipulation CLIP Space

February 22, 2023

Entity-Level Text-Guided Image Manipulation
Yikai Wang, Jianan Wang, Guansong Lu, Hang Xu, Zhenguo Li, Wei Zhang, Yanwei Fu
Image Editing Text Guided Image Manipulation Text Driven Image Manipulation

January 25, 2023

Towards Arbitrary Text-driven Image Manipulation via Space Alignment
Yunpeng Bai, Zihan Zhong, Chao Dong, Weichen Zhang, Guowei Xu, Chun Yuan
StyleGAN Latent GAN Inversion Text Driven Image Manipulation Space Binding

December 5, 2022

CLIPVG: Text-Guided Image Manipulation Using Differentiable Vector Graphics
Yiren Song, Xuning Shao, Kang Chen, Weidong Zhang, Minzhe Li, Zhongliang Jing
Contrastive Language Image Vector Graphic Text Guided Image Manipulation Text Driven Image Manipulation

October 10, 2022

Bridging CLIP and StyleGAN through Latent Alignment for Image Editing
Wanfeng Zheng, Qiang Li, Xiaoyan Guo, Pengfei Wan, Zhongyuan Wang
Multi Modal Image Editing Single CLIP StyleGAN Latent GAN Inversion Latent Alignment Text Driven Image Manipulation

October 5, 2022

LDEdit: Towards Generalized Text Guided Image Manipulation via Latent Diffusion Models
Paramanand Chandramouli, Kanchana Vaishnavi Gandikota
Generative Model Style Transfer Latent Diffusion Model Image Editing Semantic Image Editing Text Driven Image Manipulation

April 9, 2022

ManiTrans: Entity-Level Text-Guided Image Manipulation via Token-wise Semantic Alignment and Generation
Jianan Wang, Guansong Lu, Hang Xu, Zhenguo Li, Chunjing Xu, Yanwei Fu
Faithful Generation Token Level Transformer Based Framework Text Guided Image Manipulation Text Driven Image Manipulation

November 26, 2021

Predict, Prevent, and Evaluate: Disentangled Text-Driven Image Manipulation Empowered by Pre-Trained Vision-Language Model
Zipeng Xu, Tianwei Lin, Hao Tang, Fu Li, Dongliang He, Nicu Sebe, Radu Timofte, Luc Van Gool, Errui Ding
Vision Language Model Global Evaluation Image Editing Manual Annotation Effective Prevention Text Driven Image Manipulation