Speech Processing

Speech processing research aims to enable computers to understand, interpret, and generate human speech, focusing on tasks like speech recognition, synthesis, and enhancement. Current efforts concentrate on improving model efficiency (e.g., using linear-complexity attention mechanisms) and robustness across diverse languages and acoustic conditions, often leveraging large language models and self-supervised learning techniques. These advancements are crucial for broader accessibility of speech technology, impacting fields ranging from healthcare (e.g., depression screening) to assistive technologies and improving human-computer interaction.

Papers

July 10, 2024

HebDB: a Weakly Supervised Dataset for Hebrew Speech Processing
Arnon Turetzky, Or Tal, Yael Segal-Feldman, Yehoshua Dissen, Ella Zeldes, Amit Roth, Eyal Cohen, Yosi Shrem, Bronya R. Chernyak, Olga Seleznova, Joseph Keshet, Yossi Adi
Automatic Speech Recognition Speech Processing Multilingual Automatic Speech Recognition Spontaneous Speech Speech Processing System Hebrew NLP

June 23, 2024

Speech Representation Analysis based on Inter- and Intra-Model Similarities
Yassine El Kheir, Ahmed Ali, Shammur Absar Chowdhury
Speech Representation Speech Processing Self Supervised Model Class Similarity

June 20, 2024

An Adapter-Based Unified Model for Multiple Spoken Language Processing Tasks
Varsha Suresh, Salah Aït-Mokhtar, Caroline Brun, Ioan Calapodescu
Speech Processing Adapter Based

June 14, 2024

ED-sKWS: Early-Decision Spiking Neural Networks for Rapid,and Energy-Efficient Keyword Spotting
Zeyang Song, Qianhui Liu, Qu Yang, Yizhou Peng, Haizhou Li
Spiking Neural Network Speech Processing Keyword Spotting Energy Efficient SNN Model

June 11, 2024

The Interspeech 2024 Challenge on Speech Processing Using Discrete Units
Xuankai Chang, Jiatong Shi, Jinchuan Tian, Yuning Wu, Yuxun Tang, Yihan Wu, Shinji Watanabe, Yossi Adi, Xie Chen, Qin Jin
Speech Recognition Challenge Task Speech Processing Multilingual Automatic Speech Recognition Speech Generation Singing Voice Synthesis

June 10, 2024

ASTRA: Aligning Speech and Text Representations for Asr without Sampling
Neeraj Gaur, Rohan Agrawal, Gary Wang, Parisa Haghani, Andrew Rosenberg, Bhuvana Ramabhadran
Automatic Speech Recognition Speech Analysis Speech Processing Text Representation

June 5, 2024

May 21, 2024

Mamba in Speech: Towards an Alternative to Self-Attention
Xiangyu Zhang, Qiquan Zhang, Hexin Liu, Tianyi Xiao, Xinyuan Qian, Beena Ahmed, Eliathamby Ambikairajah, Haizhou Li, Julien Epps
Speech Recognition Self Attention Speech Enhancement Speech Analysis Speech Processing Mamba in Mamba Signal Processing Speech Processing Task

May 7, 2024

Open Implementation and Study of BEST-RQ for Speech Processing
Ryan Whetten, Titouan Parcollet, Marco Dinarelli, Yannick Estève
Self Supervised Learning Automatic Speech Recognition Study Feature Open Source Speech Processing Random Projection Quantizer

April 29, 2024

Towards Dog Bark Decoding: Leveraging Human Speech Processing for Automated Bark Classification
Artem Abzaliev, Humberto Pérez Espinosa, Rada Mihalcea
Speech Recognition Speech Processing Human Speech Self Supervised Speech Representation Model Bark Removal

April 26, 2024

Speech Technology Services for Oral History Research
Christoph Draxler, Henk van den Heuvel, Arjan van Hessen, Pavel Ircing, Jan Lehečka
Speech Processing Speech Technology Source Text Speech System

April 17, 2024

ViLLM-Eval: A Comprehensive Evaluation Suite for Vietnamese Large Language Models
Trong-Hieu Nguyen, Anh-Cuong Le, Viet-Cuong Nguyen
Large Language Model Speech Processing Vietnamese Language Vietnamese Language Model Evaluation Suite

April 9, 2024

The X-LANCE Technical Report for Interspeech 2024 Speech Processing Using Discrete Speech Unit Challenge
Yiwei Guo, Chenrun Wang, Yifan Yang, Hankun Wang, Ziyang Ma, Chenpeng Du, Shuai Wang, Hanzheng Li, Shuai Fan, Hui Zhang, Xie Chen, Kai Yu
Text to Speech Speech Synthesis Speech Processing Discrete Speech Unit Speech Discrete Token

March 6, 2024

VLSP 2023 -- LTER: A Summary of the Challenge on Legal Textual Entailment Recognition
Vu Tran, Ha-Thanh Nguyen, Trung Vo, Son T. Luu, Hoang-Anh Dang, Ngoc-Cam Le, Thi-Thuy Le, Minh-Tien Nguyen, Truong-Son Nguyen, Le-Minh Nguyen
Artificial Intelligence Natural Language Processing Challenge Task Speech Processing AI Development Vietnamese Language Legal Textual Entailment

February 26, 2024

Self-Supervised Speech Quality Estimation and Enhancement Using Only Clean Speech
Szu-Wei Fu, Kuo-Hsuan Hung, Yu Tsao, Yu-Chiang Frank Wang
Feature Enhancement Speech Processing Speech Quality Vector Quantized Variational Autoencoder Unsupervised Speech Enhancement

February 20, 2024

How do Hyenas deal with Human Speech? Speech Recognition and Translation with ConfHyena
Marco Gaido, Sara Papi, Matteo Negri, Luisa Bentivogli
Speech Recognition Self Attention View Translation Speech Processing Input Sequence Human Speech

January 22, 2024

Resource-constrained stereo singing voice cancellation
Clara Borrelli, James Rae, Dogac Basaran, Matt McVicar, Mehrez Souden, Matthias Mauch
Speech Processing Speech Separation Source Separation Music Source Separation

January 14, 2024

Construction and Evaluation of Mandarin Multimodal Emotional Speech Database
Zhu Ting, Li Liangqi, Duan Shufei, Zhang Xueying, Xiao Zhongzhe, Jia Hairng, Liang Huizhi
Global Evaluation 2 Dimensional Speech Processing Construction Industry Speech Emotion Dimensional Emotion

January 8, 2024

An audio-quality-based multi-strategy approach for target speaker extraction in the MISP 2023 Challenge
Runduo Han, Xiaopeng Yan, Weiming Xu, Pengcheng Guo, Jiayao Sun, He Wang, Quan Lu, Ning Jiang, Lei Xie
Challenge Task Speech Processing Target Speaker Extraction Back End Audio Quality Assessment Audio Visual Target