Discrete Audio Representation

Discrete audio representation, or audio tokenization, aims to represent audio signals as sequences of discrete units, analogous to words in text, enabling the application of powerful language modeling techniques to audio. Current research focuses on developing efficient tokenization methods, often based on vector quantization, and integrating these representations into transformer-based models for tasks like music generation, speech recognition, and image-to-audio synthesis. This approach offers potential for significant compression of audio data while maintaining performance comparable to traditional methods like mel-spectrograms, leading to improved efficiency in various applications and facilitating the development of more sophisticated audio processing systems.

Papers

September 19, 2023

Discrete Audio Representation as an Alternative to Mel-Spectrograms for Speaker and Speech Recognition
Krishna C. Puvvada, Nithin Rao Koluguri, Kunal Dhawan, Jagadeesh Balam, Boris Ginsburg
Speech Recognition Mel Spectrogram Speech Driven Audio Token Speech Tokenization Hierarchical Token Semantic Audio Transformer Discrete Audio Representation

June 8, 2023

Simple and Controllable Music Generation
Jade Copet, Felix Kreuk, Itai Gat, Tal Remez, David Kant, Gabriel Synnaeve, Yossi Adi, Alexandre Défossez
Conditional Music Generation Controllable Music Generation Single Language Discrete Audio Representation

November 6, 2022

I Hear Your True Colors: Image Guided Audio Generation
Roy Sheffer, Yossi Adi
Audio Representation Audio Generation Audio to Image Generation Discrete Audio Representation

September 30, 2022

AudioGen: Textually Guided Audio Generation
Felix Kreuk, Gabriel Synnaeve, Adam Polyak, Uriel Singer, Alexandre Défossez, Jade Copet, Devi Parikh, Yaniv Taigman, Yossi Adi
Audio Generation Text to Audio Generation Discrete Audio Representation

Discrete Audio Representation

Papers

Discrete Audio Representation as an Alternative to Mel-Spectrograms for Speaker and Speech Recognition

Simple and Controllable Music Generation

I Hear Your True Colors: Image Guided Audio Generation

AudioGen: Textually Guided Audio Generation