Text Modality

Text modality research explores how textual information can be effectively integrated with other data modalities (e.g., images, audio, video) to improve the performance and capabilities of AI models. Current research focuses on developing multimodal models using transformer architectures and diffusion models, often incorporating techniques like prompt tuning and meta-learning to enhance controllability and generalization. This work is significant because it enables more sophisticated AI systems capable of understanding and generating complex information across various data types, with applications ranging from improved medical diagnosis to more realistic virtual environments.

Papers

June 16, 2023

Cross-corpus Readability Compatibility Assessment for English Texts
Zhenzhen Li, Han Ding, Shaohong Zhang
Text Modality Cross Lingual Transfer Learning Readability Assessment

June 15, 2023

DreamHuman: Animatable 3D Avatars from Text
Nikos Kolotouros, Thiemo Alldieck, Andrei Zanfir, Eduard Gabriel Bazavan, Mihai Fieraru, Cristian Sminchisescu
Text Modality Human Model Human Avatar Avatar Generation Animatable Human Avatar Animatable Avatar

June 12, 2023

MovieFactory: Automatic Movie Creation from Text using Large Generative Models for Language and Images
Junchen Zhu, Huan Yang, Huiguo He, Wenjing Wang, Zixi Tuo, Wen-Huang Cheng, Lianli Gao, Jingkuan Song, Jianlong Fu
Text Modality Human Language Vision Paper Video Dataset Movie Review Large Generative Model Verbal Video

June 5, 2023

HeadSculpt: Crafting 3D Head Avatars with Text
Xiao Han, Yukang Cao, Kai Han, Xiatian Zhu, Jiankang Deng, Yi-Zhe Song, Tao Xiang, Kwan-Yee K. Wong
Text Modality Text to Image Diffusion Model Text to 3D Head Avatar 3D Human Head 2 Dimensional Diffusion Model

June 2, 2023

Syntax-aware Hybrid prompt model for Few-shot multi-modal sentiment analysis
Zikai Zhou, Haisong Feng, Baiyou Qiao, Gang Wu, Donghong Han
Text Modality Sentiment Analysis Cross Modality Multimodal Sentiment Analysis SYNTAX Score

June 1, 2023

May 31, 2023

May 29, 2023

HGT: A Hierarchical GCN-Based Transformer for Multimodal Periprosthetic Joint Infection Diagnosis Using CT Images and Text
Ruiyang Li, Fujun Yang, Xianjie Liu, Hongwei Shi
Transformer Based Technical Challenge Text Modality CT Image Prosthetic Joint Infection

May 25, 2023

May 24, 2023

May 23, 2023

Improving speech translation by fusing speech and text
Wenbiao Yin, Zhicheng Liu, Chengqi Zhao, Tao Wang, Jian Tong, Rong Ye
Text Modality Speech Analysis Speech Translation Cross Modal Alignment Modality Gap

Text Modality

Papers

Cross-corpus Readability Compatibility Assessment for English Texts

DreamHuman: Animatable 3D Avatars from Text

MovieFactory: Automatic Movie Creation from Text using Large Generative Models for Language and Images

HeadSculpt: Crafting 3D Head Avatars with Text

Syntax-aware Hybrid prompt model for Few-shot multi-modal sentiment analysis

Make-Your-Video: Customized Video Generation Using Textual and Structural Guidance

FigGen: Text to Scientific Figure Generation

MuseCoco: Generating Symbolic Music from Text

Control4D: Efficient 4D Portrait Editing with Text

HGT: A Hierarchical GCN-Based Transformer for Multimodal Periprosthetic Joint Infection Diagnosis Using CT Images and Text

Don't Retrain, Just Rewrite: Countering Adversarial Perturbations by Rewriting Text

Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion Models

RewriteLM: An Instruction-Tuned Large Language Model for Text Rewriting

Multi-modal Machine Learning for Vehicle Rating Predictions Using Image, Text, and Parametric Data

Detecting Check-Worthy Claims in Political Debates, Speeches, and Interviews Using Audio Data

Alt-Text with Context: Improving Accessibility for Images on Twitter

GRILL: Grounded Vision-language Pre-training via Aligning Text and Image Regions

Enabling Large Language Models to Generate Text with Citations

Vision + Language Applications: A Survey

Improving speech translation by fusing speech and text