Speech Language Model

Speech language models (SLMs) aim to directly process and generate speech, bypassing the traditional text-based intermediary steps of automatic speech recognition and text-to-speech. Current research focuses on improving SLM architectures, such as hierarchical transformers and encoder-decoder models, often incorporating techniques like self-supervised learning, knowledge distillation, and prompt engineering to enhance efficiency and performance on tasks including speech translation, synthesis, and question answering. These advancements hold significant potential for creating more natural and intuitive human-computer interaction, particularly in applications requiring real-time speech processing and generation.

Papers

September 7, 2024

Just ASR + LLM? A Study on Speech Large Language Models' Ability to Identify and Understand Speaker in Spoken Dialogue
Junkai Wu, Xulin Fan, Bo-Ru Lu, Xilin Jiang, Nima Mesgarani, Mark Hasegawa-Johnson, Mari Ostendorf
Language Model Medical LLM Spoken Language Understanding Critique Ability Speech Language Model Spoken Dialogue Spoken Text

September 5, 2024

LAST: Language Model Aware Speech Tokenization
Arnon Turetzky, Yossi Adi
Speech Language Model Pre Trained Speech Model Speech Tokenization

August 5, 2024

Language Model Can Listen While Speaking
Ziyang Ma, Yakun Song, Chenpeng Du, Jian Cong, Zhuo Chen, Yuping Wang, Yuxuan Wang, Xie Chen
Language Model Speech Language Model Full Duplex Interactive Language

July 20, 2024

Seal: Advancing Speech Language Models to be Few-Shot Learners
Shuyu Lei, Lingen Liu, Jiaolong Yang, Yasen Jiao, Yuxiang Yang, Yushu Yang, Xiang Guo
LeArning Abstract Speech Language Model Frozen Language Model Seal Generation

June 27, 2024

DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment
Ke-Han Lu, Zhehuai Chen, Szu-Wei Fu, He Huang, Boris Ginsburg, Yu-Chiang Frank Wang, Hung-yi Lee
Speech Language Model Pre Trained Speech Model Audio Caption Recent Language Model Speech Text Alignment

June 18, 2024

Instruction Data Generation and Unsupervised Adaptation for Speech Language Models
Vahid Noroozi, Zhehuai Chen, Somshubra Majumdar, Steve Huang, Jagadeesh Balam, Boris Ginsburg
Large Language Model Multimodal Large Language Model Synthetic Data Generation Speech Data Speech Language Model Instruction Generation Speech Input Unsupervised Adaptation

June 16, 2024

NAST: Noise Aware Speech Tokenization for Speech Language Models
Shoval Messica, Yossi Adi
Automatic Speech Recognition Speech Language Model Speech Tokenization

June 12, 2024

GenDistiller: Distilling Pre-trained Language Models based on an Autoregressive Generative Model
Yingying Gao, Shilei Zhang, Chao Deng, Junlan Feng
Self Supervised Learning Pre Trained Language Model Speech Data Speech Language Model Autoregressive Generative Model

June 6, 2024

BLSP-Emo: Towards Empathetic Large Speech-Language Models
Chen Wang, Minpeng Liao, Zhongqiang Huang, Junhong Wu, Chengqing Zong, Jiajun Zhang
Speech Emotion Recognition Expressive Speech Speech Language Model BLSP Emo Emotion Alignment

June 3, 2024

Generative Pre-trained Speech Language Model with Efficient Hierarchical Transformer
Yongxin Zhu, Dan Su, Liqiang He, Linli Xu, Dong Yu
Language Model Generative Question Hierarchical Transformer Neural Audio Speech Language Model Pre Trained Speech Model Discrete Speech Representation

May 30, 2024

SeamlessExpressiveLM: Speech Language Model for Expressive Speech-to-Speech Translation with Chain-of-Thought
Hongyu Gong, Bandhav Veluri
Speech Language Model Direct S2ST Speech Mapping

May 16, 2024

Evaluating Text-to-Speech Synthesis from a Large Discrete Token-based Speech Language Model
Siyang Wang, Éva Székely
Text to Speech Speech Synthesis Generative Language Model Discrete Environment Speech Language Model

April 8, 2024

SpeechAlign: Aligning Speech Generation to Human Preferences
Dong Zhang, Zhaowei Li, Shimin Li, Xin Zhang, Pengyu Wang, Yaqian Zhou, Xipeng Qiu
Human Preference Speech Generation Speech Language Model Codec Language Model

March 31, 2024

Scaling Properties of Speech Language Models
Santiago Cuervo, Ricard Marxer
Neural Language Model Speech Language Model Scaling Behavior Speech Tokenization

March 19, 2024

An Empirical Study of Speech Language Models for Prompt-Conditioned Speech Synthesis
Yifan Peng, Ilia Kulikov, Yilin Yang, Sravya Popuri, Hui Lu, Changhan Wang, Hongyu Gong
Language Model Empirical Study Speech Synthesis Speech Language Model Synthesized Sound Prompt Based Text to Speech

February 19, 2024

Language-Codec: Reducing the Gaps Between Discrete Codec Representation and Speech Language Models
Shengpeng Ji, Minghui Fang, Ziyue Jiang, Siqi Zheng, Qian Chen, Rongjie Huang, Jialung Zuo, Shulei Wang, Zhou Zhao
Filling Gap Downstream NLP Task Speech Language Model Codec Model Discrete Code

February 2, 2024

Natural language guidance of high-fidelity text-to-speech with synthetic annotations
Dan Lyth, Simon King
Natural Language Instruction Speaker Identity Speech Generation Text to Speech Model Speech Language Model Synthetic Annotation

January 31, 2024

SpeechComposer: Unifying Multiple Speech Tasks with Prompt Composition
Yihan Wu, Soumi Maiti, Yifan Peng, Wangyou Zhang, Chenda Li, Yuyue Wang, Xihua Wang, Shinji Watanabe, Ruihua Song
Language Model Style PROMPT Speech Language Model Decoder Only Language Model

November 8, 2023

Speech language models lack important brain-relevant semantics
Subba Reddy Oota, Emin Çelik, Fatma Deniz, Mariya Toneva
Speech Language Model Event Related Potential LLM Brain

October 25, 2023

BabyStories: Can Reinforcement Learning Teach Baby Language Models to Write Better Stories?
Xingmeng Zhao, Tongnian Wang, Sheri Osborn, Anthony Rios
Language Model Reinforcement Learning Human Feedback Speech Language Model Large Scale Human

Speech Language Model

Papers

Just ASR + LLM? A Study on Speech Large Language Models' Ability to Identify and Understand Speaker in Spoken Dialogue

LAST: Language Model Aware Speech Tokenization

Language Model Can Listen While Speaking

Seal: Advancing Speech Language Models to be Few-Shot Learners

DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment

Instruction Data Generation and Unsupervised Adaptation for Speech Language Models

NAST: Noise Aware Speech Tokenization for Speech Language Models

GenDistiller: Distilling Pre-trained Language Models based on an Autoregressive Generative Model

BLSP-Emo: Towards Empathetic Large Speech-Language Models

Generative Pre-trained Speech Language Model with Efficient Hierarchical Transformer

SeamlessExpressiveLM: Speech Language Model for Expressive Speech-to-Speech Translation with Chain-of-Thought

Evaluating Text-to-Speech Synthesis from a Large Discrete Token-based Speech Language Model

SpeechAlign: Aligning Speech Generation to Human Preferences

Scaling Properties of Speech Language Models

An Empirical Study of Speech Language Models for Prompt-Conditioned Speech Synthesis

Language-Codec: Reducing the Gaps Between Discrete Codec Representation and Speech Language Models

Natural language guidance of high-fidelity text-to-speech with synthetic annotations

SpeechComposer: Unifying Multiple Speech Tasks with Prompt Composition

Speech language models lack important brain-relevant semantics

BabyStories: Can Reinforcement Learning Teach Baby Language Models to Write Better Stories?