Acoustic Token

Acoustic tokenization represents the process of converting continuous audio signals into discrete units for processing by machine learning models, primarily focusing on improving the performance of audio language models (ALMs). Current research emphasizes developing more effective tokenization methods that better preserve semantic information, often employing transformer-based architectures and exploring techniques like residual vector quantization and mel-filterbank discretization. This work is crucial for advancing various audio applications, including speech recognition, speech synthesis, music generation, and voice conversion, by enabling more accurate and efficient processing of audio data.

Papers

August 30, 2024

Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model
Zhen Ye, Peiwen Sun, Jiahe Lei, Hongzhan Lin, Xu Tan, Zheqi Dai, Qiuqiang Kong, Jianyi Chen, Jiahao Pan, Qifeng Liu, Yike Guo, Wei Xue
Language Model Audio Generation Vec Tok Codec Speech Tokenization Acoustic Token Chinese Semantic Error

July 22, 2024

dMel: Speech Tokenization made Simple
He Bai, Tatiana Likhomanenko, Ruixiang Zhang, Zijin Gu, Zakaria Aldeneh, Navdeep Jaitly
Semantic Token Speech Tokenization Acoustic Token

February 3, 2024

Predicting positive transfer for improved low-resource speech recognition using acoustic pseudo-tokens
Nay San, Georgios Paraskevopoulos, Aryaman Arora, Xiluo He, Prabhjot Kaur, Oliver Adams, Dan Jurafsky
Automatic Speech Recognition Automatic Speech Recognition Performance Low Resource Speech Recognition Multilingual Speech Model Backward Transfer Acoustic Token

September 15, 2023

Enhance audio generation controllability through representation similarity regularization
Yangyang Shi, Gael Le Lan, Varun Nagaraja, Zhaoheng Ni, Xinhao Mei, Ernie Chang, Forrest Iandola, Yang Liu, Vikas Chandra
Language Model Feature Enhancement Audio Generation Similarity Regularization Audio Generation Task Acoustic Token

July 10, 2023

VampNet: Music Generation via Masked Acoustic Token Modeling
Hugo Flores Garcia, Prem Seetharaman, Rithesh Kumar, Bryan Pardo
Music Generation Audio Synthesis Audio Signal Audio Compression Acoustic Token

June 18, 2023

LM-VC: Zero-shot Voice Conversion via Speech Generation based on Language Models
Zhichao Wang, Yuanzhe Chen, Lei Xie, Qiao Tian, Yuping Wang
Language Model Zero Shot Voice Conversion Speech Generation Zero Shot Voice Conversion Acoustic Modeling Acoustic Token

December 18, 2022

BEATs: Audio Pre-Training with Acoustic Tokenizers
Sanyuan Chen, Yu Wu, Chengyi Wang, Shujie Liu, Daniel Tompkins, Zhuo Chen, Furu Wei
Rhythm Game Acoustic Token Hierarchical Token Semantic Audio Transformer Audio Pre Training Audio Supervised Learning

November 17, 2022

Token-level Speaker Change Detection Using Speaker Difference and Speech Content via Continuous Integrate-and-fire
Zhiyun Fan, Zhenlin Liang, Linhao Dong, Yi Liu, Shiyu Zhou, Meng Cai, Jun Zhang, Zejun Ma, Bo Xu
Automatic Speech Recognition Speech Analysis Continuous Speech Speaker Change Detection Speaker Change Speech Processing System Acoustic Token

Acoustic Token

Papers

Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model

dMel: Speech Tokenization made Simple

Predicting positive transfer for improved low-resource speech recognition using acoustic pseudo-tokens

Enhance audio generation controllability through representation similarity regularization

VampNet: Music Generation via Masked Acoustic Token Modeling

LM-VC: Zero-shot Voice Conversion via Speech Generation based on Language Models

BEATs: Audio Pre-Training with Acoustic Tokenizers

Token-level Speaker Change Detection Using Speaker Difference and Speech Content via Continuous Integrate-and-fire