Text Driven Generation

Text-driven generation focuses on creating various outputs, such as images, 3D models, and even text itself, based solely on textual descriptions. Current research heavily utilizes diffusion models and large vision-language models like CLIP, often incorporating multi-modal guidance (e.g., images, 3D shapes) to enhance control and realism in the generated content. This field is significant for its potential to automate complex creative processes, enabling zero-shot generation of diverse outputs and facilitating new applications in areas like digital art, animation, and material science.

Papers

April 23, 2024

DreamPBR: Text-driven Generation of High-resolution SVBRDF with Multi-modal Guidance
Linxuan Xin, Zheng Zhang, Jinfu Wei, Wei Gao, Duan Gao
Latent Diffusion Multimodal Guidance Material Generation SVBRDF Estimation Text Driven Generation

March 22, 2024

InterFusion: Text-Driven Generation of 3D Human-Object Interaction
Sisi Dai, Wenhao Li, Haowen Sun, Haibin Huang, Chongyang Ma, Hui Huang, Kai Xu, Ruizhen Hu
Human Object Interaction Text to 3D Generation Text to 3D Text Driven 3D Text Driven Generation

March 14, 2023

Text-to-image Diffusion Models in Generative AI: A Survey
Chenshuang Zhang, Chaoning Zhang, Mengchun Zhang, In So Kweon, Junmo Kim
Timely Survey Generative AI Text to Image Diffusion Model Text to Image Generation Text to Image Text Driven Generation

July 14, 2022

Rethinking Super-Resolution as Text-Guided Details Generation
Chenxi Ma, Bo Yan, Qing Lin, Weimin Tan, Siming Chen
Super Resolution Single Image Super Resolution Low Resolution Image Modality Semantic Enhancement Text Driven Generation

May 17, 2022

AvatarCLIP: Zero-Shot Text-Driven Generation and Animation of 3D Avatars
Fangzhou Hong, Mingyuan Zhang, Liang Pan, Zhongang Cai, Lei Yang, Ziwei Liu
3D Human Avatar Generation Avatar Creation Text Driven Generation

May 5, 2022

Language Models Can See: Plugging Visual Controls in Text Generation
Yixuan Su, Tian Lan, Yahui Liu, Fangyu Liu, Dani Yogatama, Yan Wang, Lingpeng Kong, Nigel Collier
Language Model Zero Shot Text Generation Generative Language Model Story Generation Visual Control Text Driven Generation