Text Modality

Text modality research explores how textual information can be effectively integrated with other data modalities (e.g., images, audio, video) to improve the performance and capabilities of AI models. Current research focuses on developing multimodal models using transformer architectures and diffusion models, often incorporating techniques like prompt tuning and meta-learning to enhance controllability and generalization. This work is significant because it enables more sophisticated AI systems capable of understanding and generating complex information across various data types, with applications ranging from improved medical diagnosis to more realistic virtual environments.

Papers

January 13, 2023

Text to Point Cloud Localization with Relation-Enhanced Transformer
Guangzhi Wang, Hehe Fan, Mohan Kankanhalli
Point Cloud Text Modality Precise Localization Relation Transformer Location Prediction Cross Modal Localization Fine Grained Cross Modal Alignment

January 9, 2023

Cursive Caption Text Detection in Videos
Ali Mirza, Imran Siddiqi
Text Modality Gameplay Video Text Detection Text Region Script Identification

January 8, 2023

January 5, 2023

January 4, 2023

Text sampling strategies for predicting missing bibliographic links
F. V. Krasnova, I. S. Smaznevicha, E. N. Baskakova
Text Modality General Strategy Text Based Optimal Sampling Sentence Classification Semantic Unit Bibliographic Reference

December 30, 2022

ResGrad: Residual Denoising Diffusion Probabilistic Models for Text to Speech
Zehua Chen, Yihan Wu, Yichong Leng, Jiawei Chen, Haohe Liu, Xu Tan, Yang Cui, Ke Wang, Lei He, Sheng Zhao, Jiang Bian, Danilo Mandic
Text Modality Speech Analysis Text to Speech Denoising Diffusion Probabilistic Model Tt Model

December 18, 2022

December 16, 2022

December 14, 2022

ReDDIT: Regret Detection and Domain Identification from Text
Fazlourrahman Balouchzahi, Sabur Butt, Grigori Sidorov, Alexander Gelbukh
Text Modality Word Embeddings Underlying Emotion Emotional Expression Simple Regret Social Medium Site Reddit Domain Discriminator Counterfactual Regret

December 12, 2022

December 9, 2022

SmartBrush: Text and Shape Guided Object Inpainting with Diffusion Model
Shaoan Xie, Zhifei Zhang, Zhe Lin, Tobias Hinz, Kun Zhang
Diffusion Model Text Modality Text to Image Generation

December 5, 2022

Unifying Vision, Text, and Layout for Universal Document Processing
Zineng Tang, Ziyi Yang, Guoxin Wang, Yuwei Fang, Yang Liu, Chenguang Zhu, Michael Zeng, Cha Zhang, Mohit Bansal
Text Modality Optimal Layout Document AI AI Foundation Model Document Processing

November 30, 2022

Improving Cross-Modal Retrieval with Set of Diverse Embeddings
Dongwon Kim, Namyup Kim, Suha Kwak
Text Modality Cross Modal Retrieval Diverse Image Closing Set Diverse Feature Set Representation

November 29, 2022

Textual Enhanced Contrastive Learning for Solving Math Word Problems
Yibin Shen, Qianying Liu, Zhuoyuan Mao, Fei Cheng, Sadao Kurohashi
Contrastive Learning Text Modality Math Word Problem Text Contrastive Learning Challenge Dataset Text Perturbation

November 25, 2022

TPA-Net: Generate A Dataset for Text to Physics-based Animation
Yuxing Qiu, Feng Gao, Minchen Li, Govind Thattai, Yin Yang, Chenfanfu Jiang
Data Set Text Modality Text to Video Text to 3D Physic Based Generate Quick Physical Simulation