Text Only Training

Text-only training aims to develop machine learning models for tasks traditionally requiring paired image-text or audio-speech data, using only text data during training. Current research focuses on leveraging pre-trained models like CLIP and transformers, adapting them for tasks such as image captioning, visual storytelling, and audio-to-intent classification through innovative training strategies like noise injection and multimodal approaches. This approach significantly reduces data acquisition costs and enables model development in low-resource scenarios, impacting various fields including medical image analysis, speech recognition, and natural language understanding.

Papers

December 15, 2024

VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping
Hao Shao, Shulun Wang, Yang Zhou, Guanglu Song, Dailan He, Shuo Qin, Zhuofan Zong, Bingqi Ma, Yu Liu, Hongsheng Li
Diffusion Model Human Face Facial Video High Fidelity Video Text Only Training Pose Diversity

October 12, 2024

Debiasing Vison-Language Models with Text-Only Training
Yunfan Yang, Chaoquan Jiang, Zhiyu Lin, Jinlin Xiao, Jiaming Zhang, Jitao Sang
Large Language Model Vision Language Model Multi Target Visual Bias Text Only Training

November 13, 2023

LT-ViT: A Vision Transformer for multi-label Chest X-ray classification
Umar Marikkar, Sara Atito, Muhammad Awais, Adam Mahdi
Vision Transformer ViT Lens Medical Imaging Task Multi Label Chest X Ray Text Only Training

November 4, 2023

Generalized zero-shot audio-to-intent classification
Veera Raghavendra Elluru, Devang Kulshreshtha, Rohit Paturi, Sravan Bodapati, Srikanth Ronanki
Zero Shot Classification Text Only Training Zero Shot Intent Classification

August 17, 2023

Text-Only Training for Visual Storytelling
Yuechen Wang, Wengang Zhou, Zhenbo Lu, Houqiang Li
Cross Modality Story Generation Visual Storytelling Visual Story Generation Text Only Training

November 1, 2022

Text-Only Training for Image Captioning using Noise-Injected CLIP
David Nukrai, Ron Mokady, Amir Globerson
Style Transfer Image Captioning Text Embeddings CLIP Model Noise Injection Text Only Training

April 5, 2022

A Complementary Joint Training Approach Using Unpaired Speech and Text for Low-Resource Automatic Speech Recognition
Ye-Qian Du, Jie Zhang, Qiu-Shi Zhu, Li-Rong Dai, Ming-Hui Wu, Xin Fang, Zhou-Wang Yang
Text Modality Low Resource Joint Training Unpaired Speech Text Only Training

February 26, 2022

Towards Reducing the Need for Speech Training Data To Build Spoken Language Understanding Systems
Samuel Thomas, Hong-Kwang J. Kuo, Brian Kingsbury, George Saon
Training Data Speech Data Spoken Language Understanding Community Need Speech Input Text Only Training