Multimodal Generation

Multimodal generation focuses on creating coherent outputs across different data types, such as text, images, audio, and video, aiming to build AI systems that understand and generate information in a more human-like way. Current research emphasizes integrating autoregressive models for global context and diffusion models for high-quality local details, often leveraging large language models to manage complex interactions between modalities. This field is significant for advancing AI capabilities in creative content generation, personalized experiences, and complex tasks like robotic control and medical image analysis, driving progress in both fundamental AI research and practical applications.

Papers

January 18, 2024

CLIP Model for Images to Textual Prompts Based on Top-k Neighbors
Xin Zhang, Xin Zhang, YeMing Cai, Tianzhi Jia
Generative Model Image Generation Text to Image Synthesis CLIP Model Multimodal Generation Textual Prompt Hop Neighbor

November 30, 2023

CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation
Zineng Tang, Ziyi Yang, Mahmoud Khademi, Yang Liu, Chenguang Zhu, Mohit Bansal
Multimodal Large Language Model Different Context Multimodal Generation Multimodal Instruction Interleaving Method Modality Data Interleaved Multimodal

November 29, 2023

C3Net: Compound Conditioned ControlNet for Multimodal Content Generation
Juntao Zhang, Yuehuai Liu, Yu-Wing Tai, Chi-Keung Tang
Multi Modal Modality Specific Multimodal Generation Compound Property

November 25, 2023

GPT4Video: A Unified Multimodal Large Language Model for lnstruction-Followed Understanding and Safety-Aware Generation
Zhanyu Wang, Longyue Wang, Zhen Zhao, Minghao Wu, Chenyang Lyu, Huayang Li, Deng Cai, Luping Zhou, Shuming Shi, Zhaopeng Tu
Multimodal Large Language Model Structured Document Multimodal Generation Multimodal Comprehension Video Generation Task Generative AI Safety

November 14, 2023

Unlock the Power: Competitive Distillation for Multi-Modal Large Language Models
Xinwei Li, Li Lin, Shuai Wang, Chen Qian
Large Language Model Real Power Multi Modal Large Language Model Multimodal Generation Unlocking Insight Multi Modal Pre Training Multi Modal Distillation

October 13, 2023

EasyGen: Easing Multimodal Generation with BiDiffuser and LLMs
Xiangyu Zhao, Bo Liu, Qijiong Liu, Guangyuan Shi, Xiao-Ming Wu
Large Language Model Multimodal Model Multimodal Understanding Multimodal Generation Modality Interaction

October 9, 2023

Controllable Chest X-Ray Report Generation from Longitudinal Representations
Francesco Dalla Serra, Chaoyang Wang, Fani Deligianni, Jeffrey Dalton, Alison Q O'Neil
Radiology Report Multimodal Generation Chest X Ray Report Generation

October 3, 2023

MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens
Kaizhi Zheng, Xuehai He, Xin Eric Wang
Multimodal Large Language Model Language Generation Multimodal Generation Multi Modal Generation

October 2, 2023

Making LLaMA SEE and Draw with SEED Tokenizer
Yuying Ge, Sijie Zhao, Ziyun Zeng, Yixiao Ge, Chen Li, Xintao Wang, Ying Shan
Multimodal Generation Multimodal Comprehension Emergent Ability Purple LLaMA CyberSecEval Artistic Drawing

July 4, 2023

Consistent Multimodal Generation via A Unified GAN Framework
Zhen Zhu, Yijun Li, Weijie Lyu, Krishna Kumar Singh, Zhixin Shu, Soeren Pirk, Derek Hoiem
Cross Modal Multimodal Data Multimodal Generation State of the Art GAN Modality Robustness

June 30, 2023

SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs
Lijun Yu, Yong Cheng, Zhiruo Wang, Vivek Kumar, Wolfgang Macherey, Yanping Huang, David A. Ross, Irfan Essa, Yonatan Bisk, Ming-Hsuan Yang, Kevin Murphy, Alexander G. Hauptmann, Lu Jiang
Token Level Multimodal Task Image Understanding Multimodal Generation Semantic Pyramid

May 26, 2023

On Evaluating Adversarial Robustness of Large Vision-Language Models
Yunqing Zhao, Tianyu Pang, Chao Du, Xiao Yang, Chongxuan Li, Ngai-Man Cheung, Min Lin
Adversarial Example Adversarial Robustness Large Vision Language Model Adversarial Vulnerability Multimodal Generation

May 24, 2023

May 19, 2023

DiffuSIA: A Spiral Interaction Architecture for Encoder-Decoder Text Diffusion
Chao-Hong Tan, Jia-Chen Gu, Zhen-Hua Ling
Text Generation Multimodal Generation Diffusion Decoder Conditional Text Generation Text Diffusion Model

November 27, 2022

Unified Discrete Diffusion for Simultaneous Vision-Language Generation
Minghui Hu, Chuanxia Zheng, Heliang Zheng, Tat-Jen Cham, Chaoyue Wang, Zuopeng Yang, Dacheng Tao, Ponnuthurai N. Suganthan
Language Generation Multimodal Generation Multi Modal Generation Multimodal Signal Diffusion Based Framework

November 15, 2022

Evaluating How Fine-tuning on Bimodal Data Effects Code Generation
Gabriel Orlanski, Seonhye Yang, Michael Healy
Fine Tuning Code Generation Real World Code Fine Tuned Model Multimodal Generation

October 10, 2022

Distill the Image to Nowhere: Inversion Knowledge Distillation for Multimodal Machine Translation
Ru Peng, Yawen Zeng, Junbo Zhao
Knowledge Distillation Multimodal Dataset Multimodal Feature Multimodal Generation Multimodal Machine Translation

August 3, 2022

Multimodal Generation of Novel Action Appearances for Synthetic-to-Real Recognition of Activities of Daily Living
Zdravko Marinov, David Schneider, Alina Roitberg, Rainer Stiefelhagen
Activity Recognition Synthetic to Real Generating User Activity Daily Living Multimodal Generation Domain Model

March 12, 2022

Enabling Multimodal Generation on CLIP via Vision-Language Knowledge Distillation
Wenliang Dai, Lu Hou, Lifeng Shang, Xin Jiang, Qun Liu, Pascale Fung
Knowledge Distillation Pre Trained Single CLIP Pre Trained Vision Language Model Multimodal Generation