Speech Language Model

Speech language models (SLMs) aim to directly process and generate speech, bypassing the traditional text-based intermediary steps of automatic speech recognition and text-to-speech. Current research focuses on improving SLM architectures, such as hierarchical transformers and encoder-decoder models, often incorporating techniques like self-supervised learning, knowledge distillation, and prompt engineering to enhance efficiency and performance on tasks including speech translation, synthesis, and question answering. These advancements hold significant potential for creating more natural and intuitive human-computer interaction, particularly in applications requiring real-time speech processing and generation.

Papers

October 16, 2023

SD-HuBERT: Sentence-Level Self-Distillation Induces Syllabic Organization in HuBERT
Cheol Jun Cho, Abdelrahman Mohamed, Shang-Wen Li, Alan W Black, Gopala K. Anumanchipalli
Sentence Level Speech Processing Speech Language Model Syllable Discovery

September 30, 2023

SLM: Bridge the thin gap between speech and text foundation models
Mingqiu Wang, Wei Han, Izhak Shafran, Zelin Wu, Chung-Cheng Chiu, Yuan Cao, Yongqiang Wang, Nanxin Chen, Yu Zhang, Hagen Soltau, Paul Rubenstein, Lukas Zilka, Dian Yu, Zhong Meng, Golan Pundak, Nikhil Siddhartha, Johan Schalkwyk, Yonghui Wu
Language Model Speech Recognition Speech Analysis Speech Translation Filling Gap Speech Language Model Railway BRIDGE Member

September 15, 2023

Towards Practical and Efficient Image-to-Speech Captioning with Vision-Language Pre-training and Multi-modal Tokens
Minsu Kim, Jeongsoo Choi, Soumi Maiti, Jeong Hun Yeo, Shinji Watanabe, Yong Man Ro
Pre Trained Vision Language Model Practical Application Language Modeling Self Supervised Speech Model Speech Language Model Speech to Image

August 31, 2023

SpeechTokenizer: Unified Speech Tokenizer for Speech Large Language Models
Xin Zhang, Dong Zhang, Shimin Li, Yaqian Zhou, Xipeng Qiu
Language Model Speech Language Model Speech Transformer Speech Tokenization

June 22, 2023

AudioPaLM: A Large Language Model That Can Speak and Listen
Paul K. Rubenstein, Chulayuth Asawaroengchai, Duc Dung Nguyen, Ankur Bapna, Zalán Borsos, Félix de Chaumont Quitry, Peter Chen, Dalia El Badawy, Wei Han, Eugene Kharitonov, Hannah Muckenhirn, Dirk Padfield, James Qin, Danny Rozenberg, Tara Sainath, Johan Schalkwyk, Matt Sharifi, Michelle Tadmor Ramanovich, Marco Tagliasacchi, Alexandru Tudor, Mihajlo Velimirović, Damien Vincent, Jiahui Yu, Yongqiang Wang, Vicky Zayats, Neil Zeghidour, Yu Zhang, Zhishuai Zhang, Lukas Zilka, Christian Frank
Large Language Model Language Model Speech to Speech Translation Speech Language Model Zero Shot Speech

June 3, 2023

SpeechGen: Unlocking the Generative Power of Speech Language Models with Prompts
Haibin Wu, Kai-Wei Chang, Yuan-Kuei Wu, Hung-yi Lee
Large Language Model Complex Prompt Speech Generation Speech Language Model Tuned Lm Generative Power

June 2, 2023

BabySLM: language-acquisition-friendly benchmark of self-supervised spoken language models
Marvin Lavechin, Yaya Sy, Hadrien Titeux, María Andrea Cruz Blandón, Okko Räsänen, Hervé Bredin, Emmanuel Dupoux, Alejandrina Cristia
New Benchmark Large Corpus Speech Representation Speech Language Model Self Supervised Technique BabyLM Challenge

May 24, 2023

May 22, 2023

Textually Pretrained Speech Language Models
Michael Hassid, Tal Remez, Tu Anh Nguyen, Itai Gat, Alexis Conneau, Felix Kreuk, Jade Copet, Alexandre Defossez, Gabriel Synnaeve, Emmanuel Dupoux, Roy Schwartz, Yossi Adi
Pre Training Speech Language Model Pre Trained Speech Model Natural Language Model Cold Start

January 2, 2023

Analysing Discrete Self Supervised Speech Representation for Spoken Language Modeling
Amitay Sicherman, Yossi Adi
Generative Language Model Speech Language Model Speech Benchmark

December 8, 2022

SpeechLMScore: Evaluating speech generation using speech language model
Soumi Maiti, Yifan Peng, Takaaki Saeki, Shinji Watanabe
Speech Quality Speech Generation Speech Language Model Speech Generation Task

October 27, 2022

Self-supervised language learning from raw audio: Lessons from the Zero Resource Speech Challenge
Ewan Dunbar, Nicolas Hamilakis, Emmanuel Dupoux
Critical Lesson Speech Language Model Self Supervised Task Raw Audio Acoustic Unit Spoken Term Speech Processing System

September 30, 2022

Augmentation Invariant Discrete Representation for Generative Spoken Language Modeling
Itai Gat, Felix Kreuk, Tu Anh Nguyen, Ann Lee, Jade Copet, Gabriel Synnaeve, Emmanuel Dupoux, Yossi Adi
Generative Language Model Speech Language Model Discrete Speech Representation Label Invariant Augmentation Speech Translation Task

July 5, 2022

ASR-Generated Text for Language Model Pre-training Applied to Speech Tasks
Valentin Pelloin, Franck Dary, Nicolas Herve, Benoit Favre, Nathalie Camelin, Antoine Laurent, Laurent Besacier
Language Model Text Modality Language Understanding Speech Language Model Speech System Speech Task

March 11, 2022

Are discrete units necessary for Spoken Language Modeling?
Tu Anh Nguyen, Benoit Sagot, Emmanuel Dupoux
Language Model Speech Language Model Continuous Representation

Speech Language Model

Papers

SD-HuBERT: Sentence-Level Self-Distillation Induces Syllabic Organization in HuBERT

SLM: Bridge the thin gap between speech and text foundation models

Towards Practical and Efficient Image-to-Speech Captioning with Vision-Language Pre-training and Multi-modal Tokens

SpeechTokenizer: Unified Speech Tokenizer for Speech Large Language Models

AudioPaLM: A Large Language Model That Can Speak and Listen

SpeechGen: Unlocking the Generative Power of Speech Language Models with Prompts

BabySLM: language-acquisition-friendly benchmark of self-supervised spoken language models

Spoken Question Answering and Speech Continuation Using Spectrogram-Powered LLM

ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text Translation

Textually Pretrained Speech Language Models

Analysing Discrete Self Supervised Speech Representation for Spoken Language Modeling

SpeechLMScore: Evaluating speech generation using speech language model

Self-supervised language learning from raw audio: Lessons from the Zero Resource Speech Challenge

Augmentation Invariant Discrete Representation for Generative Spoken Language Modeling

ASR-Generated Text for Language Model Pre-training Applied to Speech Tasks

Are discrete units necessary for Spoken Language Modeling?