Text Modality

Text modality research explores how textual information can be effectively integrated with other data modalities (e.g., images, audio, video) to improve the performance and capabilities of AI models. Current research focuses on developing multimodal models using transformer architectures and diffusion models, often incorporating techniques like prompt tuning and meta-learning to enhance controllability and generalization. This work is significant because it enables more sophisticated AI systems capable of understanding and generating complex information across various data types, with applications ranging from improved medical diagnosis to more realistic virtual environments.

571papers

Papers - Page 5

January 29, 2025

Boosting Weak Positives for Text Based Person Search
Akshay Modi, Ashhar Aziz, Nilanjana Chatterjee, A V Subramanyam
Text Modality Image Text Pair Pedestrian Data Person Search Boosting Algorithm

January 28, 2025

ITVTON: Virtual Try-On Diffusion Transformer Based on Integrated Image and Text
Haifeng Ni, Ming Xu, Faming Fang
Garment Deformation Virtual Try Character Profile Text Modality

January 26, 2025

People who frequently use ChatGPT for writing tasks are accurate and robust detectors of AI-generated text
Jenna Russell, Marzena Karpinska, Mohit Iyyer
Person Name Individual Annotator Writing Task Free Text Explanation Text Modality Robust Object Detection ChatGPT Generated Conversation

January 21, 2025

LuxVeri at GenAI Detection Task 3: Cross-Domain Detection of AI-Generated Text Using Inverse Perplexity-Weighted Ensemble of Fine-Tuned Transformer Models
Md Kamrujjaman Mobin, Md Saiful Islam
Machine Generated Text Inverse Task genAI System Content Recognition Machine Generated Transformer Model Text Modality

January 17, 2025

RichSpace: Enriching Text-to-Video Prompt Space via Text Embedding Interpolation
Yuefan Cao, Chengyue Gong, Xiaoyu Li, Yingyu Liang, Zhizhou Sha, Zhenmei Shi, Zhao Song
Text Embeddings Video Generation Model Text Modality Interpolation Regime

January 16, 2025

Augmenting a Large Language Model with a Combination of Text and Visual Data for Conversational Visualization of Global Geospatial Data
Omar Mena, Alexandre Kouyoumdjian, Lonni Besançon, Michael Gleicher, Ivan Viola, Anders Ynnerman
Interactive Visualization Visual Analytics Tool Large Language Model Visual Data Text Modality

January 13, 2025

Unveiling the Potential of Text in High-Dimensional Time Series Forecasting
Xin Zhou, Weiqing Wang, Shilin Qu, Zhiqiang Zhang, Christoph Bergmeir
Full Potential High Dimensional Time Series Time Series Forecasting Text Modality Time Series Model State of the Art Forecasting Time Series

January 12, 2025

Hierarchical Sampling-based Planner with LTL Constraints and Text Prompting
Jingzhan Ge, Zi-Hao Zhang, Sheng-En Huang
Text Modality Task Planning Path Generation Hierarchical Planning Sampling Based Part Whole Hierarchy

January 10, 2025

Text2Playlist: Generating Personalized Playlists from Text on Deezer
Mathieu Delcluze, Antoine Khoury, Clémence Vast, Valerio Arnaudo, Léa Briand, Walid Bendada, Thomas Bouabça
Recommendation System Music Recommendation Text Modality Conversational Playlist Curation Dataset

January 8, 2025

Instructive3D: Editing Large Reconstruction Models with Text Instructions
Kunal Kathare, Ankit Dhiman, K Vikas Gowda, Siddharth Aravindan, Shubham Monga, Basavaraja Shanthappa Vandrotti, Lokesh R Boregowda
Text Modality 3D Object Large Reconstruction Model Human Instruction

January 7, 2025

January 6, 2025

January 5, 2025

From Language To Vision: A Case Study of Text Animation
Ping Chen, Richard Alo, Justin Rundell
Text Modality Unstructured Text Case Study Real Image Animation Human Language Vision Paper Natural Language Visualization Tool

January 4, 2025

A Survey of State of the Art Large Vision Language Models: Alignment, Benchmark, Evaluations and Challenges
Zongxia Li, Xiyang Wu, Hongyang Du, Huy Nghiem, Guangyao Shi
Embodied Agent Evaluation Benchmark Vision Language Model Vision Paper Text Modality Computer Vision Language Model Financial Application Technical Challenge

January 1, 2025

Beyond Text: Implementing Multimodal Large Language Model-Powered Multi-Agent Systems Using a No-Code Platform
Cheonsu Jeong
AI Technology Artificial Intelligence Artificial Intelligence Adoption Multi Agent System Text Modality Multimodal Large Language Model

December 28, 2024

YAD: Leveraging T5 for Improved Automatic Diacritization of Yorùbá Text
Akindele Michael Olawole, Jesujoba O. Alabi, Aderonke Busayo Sakpere, David I. Adelani
Automatic Speech Recognition Diacritization Pre Trained T5 Model Text Modality

December 27, 2024

Enhancing Vision-Language Tracking by Effectively Converting Textual Cues into Visual Cues
X. Feng, D. Zhang, S. Hu, X. Li, M. Wu, J. Zhang, X. Chen, K. Huang
Vision Language Tracking Text Based Cue Visual Cue Image Text Alignment Text Modality

Text Modality

Papers - Page 5

Boosting Weak Positives for Text Based Person Search

ITVTON: Virtual Try-On Diffusion Transformer Based on Integrated Image and Text

People who frequently use ChatGPT for writing tasks are accurate and robust detectors of AI-generated text

LuxVeri at GenAI Detection Task 3: Cross-Domain Detection of AI-Generated Text Using Inverse Perplexity-Weighted Ensemble of Fine-Tuned Transformer Models

RichSpace: Enriching Text-to-Video Prompt Space via Text Embedding Interpolation

Augmenting a Large Language Model with a Combination of Text and Visual Data for Conversational Visualization of Global Geospatial Data

Unveiling the Potential of Text in High-Dimensional Time Series Forecasting

Hierarchical Sampling-based Planner with LTL Constraints and Text Prompting

Text2Playlist: Generating Personalized Playlists from Text on Deezer

Instructive3D: Editing Large Reconstruction Models with Text Instructions

KG-TRICK: Unifying Textual and Relational Information Completion of Knowledge for Multilingual Knowledge Graphs

Text to Band Gap: Pre-trained Language Models as Encoders for Semiconductor Band Gap Prediction

Leveraging Explainable AI for LLM Text Attribution: Differentiating Human-Written and Multiple LLMs-Generated Text

Visual Large Language Models for Generalized and Specialized Applications

QuIM-RAG: Advancing Retrieval-Augmented Generation with Inverted Question Matching for Enhanced QA Performance

From Language To Vision: A Case Study of Text Animation

A Survey of State of the Art Large Vision Language Models: Alignment, Benchmark, Evaluations and Challenges

Beyond Text: Implementing Multimodal Large Language Model-Powered Multi-Agent Systems Using a No-Code Platform

YAD: Leveraging T5 for Improved Automatic Diacritization of Yorùbá Text

Enhancing Vision-Language Tracking by Effectively Converting Textual Cues into Visual Cues