Speech Technology

Speech technology aims to enable computers to understand, process, and generate human speech, facilitating seamless human-computer interaction. Current research heavily focuses on improving the accuracy and robustness of automatic speech recognition (ASR) and speech synthesis across diverse languages and speaker demographics, employing deep learning models like transformers and leveraging self-supervised learning to address data scarcity. This field is crucial for broader accessibility of information and services, particularly for low-resource languages and individuals with communication disorders, while also raising important ethical considerations regarding bias and privacy in data collection and model development.

Papers

October 16, 2023

Self-Supervised Models of Speech Infer Universal Articulatory Kinematics
Cheol Jun Cho, Abdelrahman Mohamed, Alan W Black, Gopala K. Anumanchipalli
Self Supervised Model Speech Technology Articulatory Inversion Articulatory Kinematics

July 5, 2023

June 9, 2023

Challenges and Opportunities for the Design of Smart Speakers
Tao Long, Lydia B. Chilton
Technical Challenge Product Design Emerging Opportunity Speech Technology Voice Based Smart Speaker

May 22, 2023

Scaling Speech Technology to 1,000+ Languages
Vineel Pratap, Andros Tjandra, Bowen Shi, Paden Tomasello, Arun Babu, Sayani Kundu, Ali Elkahky, Zhaoheng Ni, Apoorv Vyas, Maryam Fazel-Zarandi, Alexei Baevski, Yossi Adi, Xiaohui Zhang, Wei-Ning Hsu, Alexis Conneau, Michael Auli
Speech Recognition Speech Synthesis Unknown Language Language Identification Multilingual Automatic Speech Recognition Speech Technology Multilingual Speech

May 9, 2023

Privacy in Speech Technology
Tom Bäckström
Speech Analysis Privacy Preserving Privacy Policy Private Data Speech Technology Privacy Issue

May 3, 2023

Considerations for Ethical Speech Recognition Datasets
Orestis Papakyriakopoulos, Alice Xiang
Automatic Speech Recognition Crucial Consideration Speech Technology Ethic Dataset

March 21, 2023

Transformers in Speech Processing: A Survey
Siddique Latif, Aun Zaidi, Heriberto Cuayahuitl, Fahad Shamshad, Moazzam Shoukat, Junaid Qadir
Timely Survey Transformer Megatron Decepticons Speech Synthesis Speech Processing Speech Technology

February 21, 2023

Connecting Humanities and Social Sciences: Applying Language and Speech Technology to Online Panel Surveys
Henk van den Heuvel, Martijn Bentum, Simone Wills, Judith C. Koops
Automatic Speech Recognition Sentiment Analysis Human Language Automatic Speech Recognition System Open Ended Social Science Speech Technology English Literature Online Questionnaire

January 21, 2023

New Challenges for Content Privacy in Speech and Audio
Jennifer Williams, Karla Pizzi, Shuvayanti Das, Paul-Gauthier Noe
Speech Analysis Audio Driven Speech Technology

November 17, 2022

Hey ASR System! Why Aren't You More Inclusive? Automatic Speech Recognition Systems' Bias and Proposed Bias Mitigation Techniques. A Literature Review
Mikel K. Ngueajio, Gloria Washington
Automatic Speech Recognition Absolute Stance Bias Bias Mitigation Automatic Speech Recognition System Speech Recognition System Literature Review Speech Technology

August 29, 2022

Streaming Intended Query Detection using E2E Modeling for Continued Conversation
Shuo-yiin Chang, Guru Prakash, Zelin Wu, Qiao Liang, Tara N. Sainath, Bo Li, Adam Stambler, Shyam Upadhyay, Manaal Faruqui, Trevor Strohman
Speech Technology End 2 End Natural Conversation Query Based Detector

May 18, 2022

Macedonian Speech Synthesis for Assistive Technology Applications
Bojan Sofronievski, Elena Velovska, Martin Velichkovski, Violeta Argirova, Tea Veljkovikj, Risto Chavdarov, Stefan Janev, Kristijan Lazarev, Toni Bachvarovski, Zoran Ivanovski, Dimitar Tashkovski, Branislav Gerazov
Speech Synthesis Speech Technology Assistive Technology

April 3, 2022

Automatic Dialect Density Estimation for African American English
Alexander Johnson, Kevin Everson, Vijay Ravi, Anissa Gladney, Mari Ostendorf, Abeer Alwan
Prosodic Feature Language Modeling Speech Technology Dialect Datasets African American

February 23, 2022

State-of-the-art in speaker recognition
Marcos Faundez-Zanuy, Enric Monte-Moreno
Speech Analysis State of the Art Speaker Recognition Speech Technology Probabilistic Context Free Grammar

November 30, 2021

Generating Rich Product Descriptions for Conversational E-commerce Systems
Shashank Kedia, Aditya Mantha, Sneha Gupta, Stephen Guo, Kannan Achan
Natural Sounding Speech Conversational System BERT Embeddings Speech Technology Product Description Generation