Text Modality

October 4, 2023

Improving Vision Anomaly Detection with the Guidance of Language Modality
Dong Chen, Kaihang Pan, Guoming Wang, Yueting Zhuang, Siliang Tang
Text Modality Human Guidance Visual Anomaly Detection Modal Embeddings Multimodal Guidance

October 3, 2023

Nugget: Neural Agglomerative Embeddings of Text
Guanghui Qin, Benjamin Van Durme
Language Model Machine Translation Text Modality Feature Embeddings Text Sequence Fixed Size

September 29, 2023

Improving Audio Captioning Models with Fine-grained Audio Features, Text Embedding Supervision, and LLM Mix-up Augmentation
Shih-Lun Wu, Xuankai Chang, Gordon Wichern, Jee-weon Jung, François Germain, Jonathan Le Roux, Shinji Watanabe
Large Language Model Language Model Fine Grained Text Modality Audio Captioning Audio Captioning Model
Contextualising Levels of Language Resourcedness affecting Digital Processing of Text
C. Maria Keet, Langa Khumalo
Text Modality Low Resource Language Large Language High Resource Language Low Resourced Language Data Processing Linguistic Resource

September 28, 2023

Align before Search: Aligning Ads Image to Text for Accurate Cross-Modal Sponsored Search
Yuanmin Tang, Jing Yu, Keke Gai, Yujing Wang, Yue Hu, Gang Xiong, Qi Wu
Text Modality Cross Modal Search Query Cross Modal Alignment LD Align Advertising Image

September 26, 2023

A multi-modal approach for identifying schizophrenia using cross-modal attention
Gowtham Premananth, Yashish M. Siriwardena, Philip Resnik, Carol Espy-Wilson
Text Modality Cross Modal Attention Schizophrenia Diagnosis Multimodal System Multi Modal Approach Multimodal Depression

September 24, 2023

September 23, 2023

From Text to Source: Results in Detecting Large Language Model-Generated Content
Wissam Antoun, Benoît Sagot, Djamé Seddah
Text Modality Large Language LLM Generated Key Result Source Table Model Generated Model Attribution Cross Model

September 22, 2023

September 21, 2023

Weakly-supervised Automated Audio Captioning via text only training
Theodoros Kouzelis, Vassilis Katsouros
Text Modality Audio Captioning Audio Embeddings Contrastive Language Audio Pretraining Contrastive Language Audio

September 20, 2023

Investigating Personalization Methods in Text to Music Generation
Manos Plitsis, Theodoros Kouzelis, Georgios Paraskevopoulos, Vassilis Katsouros, Yannis Panagakis
Text Modality Music Generation Personalization Method Audio Augmentation Text to Music Diffusion Model

September 19, 2023

September 17, 2023

Augmenting text for spoken language understanding with Large Language Models
Roshan Sharma, Suyoun Kim, Daniel Lazar, Trang Le, Akshat Shrivastava, Kwanghoon Ahn, Piyush Kansal, Leda Sari, Ozlem Kalinli, Michael Seltzer
Text Modality Text to Speech Semantic Parsing Speech Representation Spoken Language Understanding

September 15, 2023

MusiLingo: Bridging Music and Text with Pre-trained Language Models for Music Captioning and Query Response
Zihao Deng, Yinghao Ma, Yudong Liu, Rongchen Guo, Ge Zhang, Wenhu Chen, Wenhao Huang, Emmanouil Benetos
Pre Trained Language Model Text Modality Pre Trained Query Information Bridging Text Music Representation Music Caption Audio Question Answering

September 10, 2023

Chat2Brain: A Method for Mapping Open-Ended Semantic Queries to Brain Activation Maps
Yaonai Wei, Tuo Zhang, Han Zhang, Tianyang Zhong, Lin Zhao, Zhengliang Liu, Chong Ma, Songyao Zhang, Muheng Shang, Lei Du, Xiao Li, Tianming Liu, Junwei Han
Text Modality Practical Method Activation Pattern Semantic Mapping

September 9, 2023

MMHQA-ICL: Multimodal In-context Learning for Hybrid Question Answering over Text, Tables and Images
Weihao Liu, Fangyu Lei, Tongxu Luo, Jiahe Lei, Shizhu He, Jun Zhao, Kang Liu
Large Language Model Context Learning Text Modality Efficient Hybrid Table Semantics Multimodal in Context Learning MultimodalQA Dataset

September 8, 2023

From Text to Mask: Localizing Entities Using the Attention of Text-to-Image Diffusion Models
Changming Xiao, Qi Yang, Feng Zhou, Changshui Zhang
Text Modality Text to Image Diffusion Model Human Attention Text to Image Generation Mask Frozen DETR Text Image Denoising Network

Papers

Improving Vision Anomaly Detection with the Guidance of Language Modality

Nugget: Neural Agglomerative Embeddings of Text

Improving Audio Captioning Models with Fine-grained Audio Features, Text Embedding Supervision, and LLM Mix-up Augmentation

Contextualising Levels of Language Resourcedness affecting Digital Processing of Text

Align before Search: Aligning Ads Image to Text for Accurate Cross-Modal Sponsored Search

A multi-modal approach for identifying schizophrenia using cross-modal attention

ALLURE: Auditing and Improving LLM-based Evaluation of Text using Iterative In-Context-Learning

A Text Classification-Based Approach for Evaluating and Enhancing the Machine Interpretability of Building Codes

From Text to Source: Results in Detecting Large Language Model-Generated Content

From Text to Trends: A Unique Garden Analytics Perspective on the Future of Modern Agriculture

Is it Possible to Modify Text to a Target Readability Level? An Initial Investigation Using Zero-Shot Large Language Models

Weakly-supervised Automated Audio Captioning via text only training

Investigating Personalization Methods in Text to Music Generation

Language as the Medium: Multimodal Video Classification through text only

What is the Best Automated Metric for Text to Motion Generation?

Augmenting text for spoken language understanding with Large Language Models

MusiLingo: Bridging Music and Text with Pre-trained Language Models for Music Captioning and Query Response

Chat2Brain: A Method for Mapping Open-Ended Semantic Queries to Brain Activation Maps

MMHQA-ICL: Multimodal In-context Learning for Hybrid Question Answering over Text, Tables and Images

From Text to Mask: Localizing Entities Using the Attention of Text-to-Image Diffusion Models