Text Modality

March 7, 2023

Leveraging Pre-trained AudioLDM for Text to Sound Generation: A Benchmark Study
Yi Yuan, Haohe Liu, Jinhua Liang, Xubo Liu, Mark D. Plumbley, Wenwu Wang
Text Modality Pre Trained Benchmark Study Audio Generation Text to Audio Generation
Adaptive Knowledge Distillation between Text and Speech Pre-trained Models
Jinjie Ni, Yukun Ma, Wen Wang, Qian Chen, Dianwen Ng, Han Lei, Trung Hieu Nguyen, Chong Zhang, Bin Ma, Erik Cambria
Language Model Knowledge Distillation Pre Trained Model Text Modality Speech Analysis Self Supervised Speech Model Distillation Framework Adaptive Knowledge Distillation

March 6, 2023

Guilt Detection in Text: A Step Towards Understanding Complex Emotions
Abdul Gafar Manuel Meque, Nisar Hussain, Grigori Sidorov, Alexander Gelbukh
Natural Language Processing Text Modality Cross Over Step Guilt Detection Non Social Guilt

February 28, 2023

February 27, 2023

February 23, 2023

Extracting Victim Counts from Text
Mian Zhong, Shehzaad Dhuliawala, Niklas Stoehr
Text Modality Text to Text

February 17, 2023

Entry Separation using a Mixed Visual and Textual Language Model: Application to 19th century French Trade Directories
Bertrand Duménieu, Edwin Carlinet, Nathalie Abadie, Joseph Chazalon
Application Proficiency Entity Recognition Text Modality Structured Data Separation Performance Natural Language Model Mixed Speech Text Region

February 12, 2023

"Nice to meet you!": Expressing Emotions with Movement Gestures and Textual Content in Automatic Handwriting Robots
Yanheng Li, Lin Luoying, Xinyan Li, Yaxuan Mao, Ray Lc
Text Modality Experienced Emotion High Quality Gesture Emotional Expression Robotic Drawing

February 9, 2023

Flexible, Model-Agnostic Method for Materials Data Extraction from Text Using General Purpose Language Models
Maciej P. Polak, Shrey Modi, Anna Latosinska, Jinming Zhang, Ching-Wen Wang, Shaonan Wang, Ayan Deep Hazra, Dane Morgan
Large Language Model Text Modality Model Agnostic Material SCIence Material Science Material Data General Purpose Language Model Material Search Engine

February 8, 2023

A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech
Li-Wei Chen, Shinji Watanabe, Alexander Rudnicky
Text Modality Text to Speech Speech Synthesis Synthesized Speech Vector Quantization Spontaneous Speech Speech Synthesizer

February 6, 2023

MuG: A Multimodal Classification Benchmark on Game Data with Tabular, Textual, and Visual Fields
Jiaying Lu, Yongchen Qian, Shifan Zhao, Yuanzhe Xi, Carl Yang
Text Modality Table Semantics Unimodal Model Game Data Visual Field Unimodal Classifier Multimodal Benchmark Datasets Multimodal Multilabel Classification

February 5, 2023

cross-modal fusion techniques for utterance-level emotion recognition from text and speech
Jiachen Luo, Huy Phan, Joshua Reiss
Text Modality Speech Analysis Multimodal Representation Multimodal Emotion Recognition Multimodal Feature Emotion Detection Cross Modal Fusion

January 30, 2023

Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with Unsupervised Text Pretraining
Takaaki Saeki, Soumi Maiti, Xinjian Li, Shinji Watanabe, Shinnosuke Takamichi, Hiroshi Saruwatari
LeArning Abstract Text Modality Pre Trained Text to Speech Zero Shot Text to Speech Multilingual Data

January 28, 2023

How learners produce data from text in classifying clickbait
Nicholas J. Horton, Jie Chao, Phebe Palmer, William Finzer
LeArning Abstract Raw Data Text Modality Text Representation Unstructured Data Text Data Event Linking Clickbait Title

January 27, 2023

A Multi-View Joint Learning Framework for Embedding Clinical Codes and Text Using Graph Neural Networks
Lecheng Kong, Christopher King, Bradley Fritz, Yixin Chen
Graph Neural Network Text Modality BERT Model Text Embeddings Multi View Learning Clinical Machine Learning Clinical Code

January 26, 2023

MusicLM: Generating Music From Text
Andrea Agostinelli, Timo I. Denk, Zalán Borsos, Jesse Engel, Mauro Verzetti, Antoine Caillon, Qingqing Huang, Aren Jansen, Adam Roberts, Marco Tagliasacchi, Matt Sharifi, Neil Zeghidour, Christian Frank
Text Modality Sequence to Sequence Music Generation High Fidelity Audio Conditional Music Generation Text to Music

January 18, 2023

Joint Representation Learning for Text and 3D Point Cloud
Rui Huang, Xuran Pan, Henry Zheng, Haojun Jiang, Zhifeng Xie, Shiji Song, Gao Huang
Point Cloud Text Modality Vision Language Joint Representation Point Cloud Representation 3D Vision Language Text 3D

Papers

Leveraging Pre-trained AudioLDM for Text to Sound Generation: A Benchmark Study

Adaptive Knowledge Distillation between Text and Speech Pre-trained Models

Guilt Detection in Text: A Step Towards Understanding Complex Emotions

Joint Representations of Text and Knowledge Graphs for Retrieval and Evaluation

Automatically Classifying Emotions based on Text: A Comparative Exploration of Different Datasets

UniFLG: Unified Facial Landmark Generator from Text or Speech

Quantifying Valence and Arousal in Text with Multilingual Pre-trained Transformers

Using Auxiliary Tasks In Multimodal Fusion Of Wav2vec 2.0 And BERT For Multimodal Emotion Recognition

Extracting Victim Counts from Text

Entry Separation using a Mixed Visual and Textual Language Model: Application to 19th century French Trade Directories

"Nice to meet you!": Expressing Emotions with Movement Gestures and Textual Content in Automatic Handwriting Robots

Flexible, Model-Agnostic Method for Materials Data Extraction from Text Using General Purpose Language Models

A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech

MuG: A Multimodal Classification Benchmark on Game Data with Tabular, Textual, and Visual Fields

cross-modal fusion techniques for utterance-level emotion recognition from text and speech

Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with Unsupervised Text Pretraining

How learners produce data from text in classifying clickbait

A Multi-View Joint Learning Framework for Embedding Clinical Codes and Text Using Graph Neural Networks

MusicLM: Generating Music From Text

Joint Representation Learning for Text and 3D Point Cloud