Text Modality

Text modality research explores how textual information can be effectively integrated with other data modalities (e.g., images, audio, video) to improve the performance and capabilities of AI models. Current research focuses on developing multimodal models using transformer architectures and diffusion models, often incorporating techniques like prompt tuning and meta-learning to enhance controllability and generalization. This work is significant because it enables more sophisticated AI systems capable of understanding and generating complex information across various data types, with applications ranging from improved medical diagnosis to more realistic virtual environments.

Papers

April 17, 2023

CLIP-Lung: Textual Knowledge-Guided Lung Nodule Malignancy Prediction
Yiming Lei, Zilong Li, Yan Shen, Junping Zhang, Hongming Shan
Text Modality Contrastive Language Image Lung Nodule Malignancy Cancer Prediction

April 14, 2023

Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved with Text
Wanrong Zhu, Jack Hessel, Anas Awadalla, Samir Yitzhak Gadre, Jesse Dodge, Alex Fang, Youngjae Yu, Ludwig Schmidt, William Yang Wang, Yejin Choi
Language Model Text Modality Large Corpus Shot Learning Web Mined Corpus

April 11, 2023

MoMo: A shared encoder Model for text, image and multi-Modal representations
Rakesh Chada, Zhaoheng Zheng, Pradeep Natarajan
Text Modality Image Text Pair Multimodal Task Multimodal Benchmark Multi Modal Representation Encoder Model Encoder Layer

April 6, 2023

April 4, 2023

EduceLab-Scrolls: Verifiable Recovery of Text from Herculaneum Papyri using X-ray CT
Stephen Parsons, C. Seth Parker, Christy Chapman, Mami Hayashida, W. Brent Seales
Text Modality X Ray Recovery Guarantee Greek Papyrus Ink Analysis

March 31, 2023

GlyphDraw: Seamlessly Rendering Text with Intricate Spatial Structures in Text-to-Image Generation
Jian Ma, Mingjun Zhao, Chen Chen, Ruichen Wang, Di Niu, Haonan Lu, Xiaodong Lin
Text Modality Text to Image Generation Image Generation Model Complex Structure Glyph Shape

March 30, 2023

AvatarCraft: Transforming Text into Neural Human Avatars with Parameterized Shape and Pose Control
Ruixiang Jiang, Can Wang, Jingbo Zhang, Menglei Chai, Mingming He, Dongdong Chen, Jing Liao
Text Modality Implicit Representation Pose Control Neural Implicit Field Neural Avatar

March 29, 2023

Using Semantic Similarity and Text Embedding to Measure the Social Media Echo of Strategic Communications
Tristan J. B. Cann, Ben Dennes, Travis Coan, Saffron O'Neill, Hywel T. P. Williams
Text Modality Social Medium Semantic Similarity Online Discourse Online Content

March 28, 2023

Synthetically generated text for supervised text analysis
Andrew Halterman
Natural Language Text Modality Text Generation Textual Model Generated Tweet

March 27, 2023

Text is All You Need: Personalizing ASR Models using Controllable Speech Synthesis
Karren Yang, Ting-Yao Hu, Jen-Hao Rick Chang, Hema Swetha Koppula, Oncel Tuzel
Speech Recognition Text Modality Automatic Speech Recognition Model Speaker Adaptation Controllable Speech Synthesis

March 23, 2023

March 22, 2023

Text with Knowledge Graph Augmented Transformer for Video Captioning
Xin Gu, Guang Chen, Yufei Wang, Libo Zhang, Tiejian Luo, Longyin Wen
Knowledge Graph Text Modality Video Captioning Captioning Datasets ActivityNet Caption Audio Caption

March 19, 2023

Textless Speech-to-Music Retrieval Using Emotion Similarity
SeungHeon Doh, Minz Won, Keunwoo Choi, Juhan Nam
Text Modality App to App Retrieval Speech Representation Audio Text Retrieval Emotion Space

March 17, 2023

Can AI-Generated Text be Reliably Detected?
Vinu Sankar Sadasivan, Aounon Kumar, Sriram Balasubramanian, Wenxiao Wang, Soheil Feizi
Text Modality AI Generated Text AI Generated Text Detection Text Distribution Paraphrasing Attack

March 15, 2023

Aerial Diffusion: Text Guided Ground-to-Aerial View Translation from a Single Image using Diffusion Models
Divya Kothandaraman, Tianyi Zhou, Ming Lin, Dinesh Manocha
Diffusion Model Text Modality Text to Image Diffusion Model Single Image View Translation Aerial Image Aerial Imagery UAV Dataset

March 10, 2023

March 8, 2023

Exploiting the Textual Potential from Vision-Language Pre-training for Text-based Person Search
Guanshuo Wang, Fufu Yu, Junjie Li, Qiong Jia, Shouhong Ding
Text Modality Pre Trained Vision Language Zero Shot Classification Modality Alignment Text Based Person Search