Non Streaming Automatic Speech Recognition

Non-streaming automatic speech recognition (ASR) focuses on accurately transcribing speech recordings after the entire utterance is available, prioritizing accuracy over real-time processing. Current research emphasizes improving model architectures like transformers and transducers, often incorporating techniques such as self-supervised pre-training, knowledge distillation between streaming and non-streaming models, and novel attention mechanisms to enhance accuracy and efficiency. These advancements aim to bridge the performance gap between non-streaming and streaming ASR, leading to more robust and accurate speech transcription systems for various applications, including improved voice assistants and transcription services.

Papers

September 13, 2024

NEST-RQ: Next Token Prediction for Speech Self-Supervised Pre-Training
Minglun Han, Ye Bai, Chen Shen, Youjia Huang, Mingkun Huang, Zehua Lin, Linhao Dong, Lu Lu, Yuxuan Wang
Next Token Prediction Speech Supervised Learning Model Non Streaming Automatic Speech Recognition Non Causal Nest Agent Random Projection Quantizer

June 27, 2024

Streaming Decoder-Only Automatic Speech Recognition with Discrete Speech Units: A Pilot Study
Peikun Chen, Sining Sun, Changhao Shan, Qing Yang, Lei Xie
Speech Recognition Pilot Study Decoder Only Transformer Online Streaming Discrete Speech Unit Non Streaming Automatic Speech Recognition

May 22, 2024

Joint Optimization of Streaming and Non-Streaming Automatic Speech Recognition with Multi-Decoder and Knowledge Distillation
Muhammad Shakeel, Yui Sudo, Yifan Peng, Shinji Watanabe
Knowledge Distillation Automatic Speech Recognition Joint Optimization Online Streaming Non Streaming Automatic Speech Recognition Multi Decoder

August 19, 2023

Bayes Risk Transducer: Transducer with Controllable Alignment Prediction
Jinchuan Tian, Jianwei Yu, Hangting Chen, Brian Yan, Chao Weng, Dong Yu, Shinji Watanabe
Automatic Speech Recognition Transformer Transducer Bayes Risk Non Streaming Automatic Speech Recognition Alignment Prediction

June 13, 2023

DCTX-Conformer: Dynamic context carry-over for low latency unified streaming and non-streaming Conformer ASR
Goeric Huybrechts, Srikanth Ronanki, Xilai Li, Hadis Nosrati, Sravan Bodapati, Katrin Kirchhoff
Automatic Speech Recognition Low Latency Automatic Speech Recognition System Online Streaming Non Streaming Automatic Speech Recognition

June 1, 2023

Enhancing the Unified Streaming and Non-streaming Model with Contrastive Learning
Yuting Yang, Yuke Li, Binbin Du
Contrastive Learning Representation Gap Non Streaming Automatic Speech Recognition Non Streaming

April 18, 2023

Dynamic Chunk Convolution for Unified Streaming and Non-Streaming Conformer ASR
Xilai Li, Goeric Huybrechts, Srikanth Ronanki, Jeff Farris, Sravan Bodapati
Convolutional Block Action Chunking Non Streaming Automatic Speech Recognition

November 4, 2022

A Weakly-Supervised Streaming Multilingual Speech Model with Truly Zero-Shot Capability
Jian Xue, Peidong Wang, Jinyu Li, Eric Sun
Zero Shot Training Data Speech Translation Data Stream Classification Multilingual Speech Model Non Streaming Automatic Speech Recognition Speech Recognition Corpus

May 26, 2022

Global Normalization for Streaming Speech Recognition in a Modular Framework
Ehsan Variani, Ke Wu, Michael Riley, David Rybach, Matt Shannon, Cyril Allauzen
Speech Recognition Modular Framework Unified Normalization Non Streaming Automatic Speech Recognition

May 17, 2022

Deploying self-supervised learning in the wild for hybrid automatic speech recognition
Mostafa Karimi, Changliang Liu, Kenichi Kumatani, Yao Qian, Tianyu Wu, Jian Wu
Self Supervised Learning Automatic Speech Recognition Domain Generalization Wild Challenge Real World Deployment Hybrid Automatic Speech Recognition Non Streaming Automatic Speech Recognition

March 29, 2022

Streaming parallel transducer beam search with fast-slow cascaded encoders
Jay Mahadeokar, Yangyang Shi, Ke Li, Duc Le, Jiedan Zhu, Vikas Chandra, Ozlem Kalinli, Michael L Seltzer
Beam Search Encoder Side RNN Transducer Non Streaming Automatic Speech Recognition Non Streaming

Non Streaming Automatic Speech Recognition

Papers

NEST-RQ: Next Token Prediction for Speech Self-Supervised Pre-Training

Streaming Decoder-Only Automatic Speech Recognition with Discrete Speech Units: A Pilot Study

Joint Optimization of Streaming and Non-Streaming Automatic Speech Recognition with Multi-Decoder and Knowledge Distillation

Bayes Risk Transducer: Transducer with Controllable Alignment Prediction

DCTX-Conformer: Dynamic context carry-over for low latency unified streaming and non-streaming Conformer ASR

Enhancing the Unified Streaming and Non-streaming Model with Contrastive Learning

Dynamic Chunk Convolution for Unified Streaming and Non-Streaming Conformer ASR

A Weakly-Supervised Streaming Multilingual Speech Model with Truly Zero-Shot Capability

Global Normalization for Streaming Speech Recognition in a Modular Framework

Deploying self-supervised learning in the wild for hybrid automatic speech recognition

Streaming parallel transducer beam search with fast-slow cascaded encoders