Voice Activity Detection

Voice activity detection (VAD) aims to accurately identify speech segments within audio recordings, a crucial preprocessing step for numerous applications like speech recognition and speaker diarization. Current research emphasizes improving VAD robustness in challenging acoustic conditions (noise, reverberation, overlapping speech) using lightweight neural networks (e.g., convolutional, recurrent, and transformer architectures), often incorporating multi-channel processing and self-supervised learning techniques. These advancements are driving improvements in real-time applications, particularly in areas like hands-free communication, ecological monitoring, and personalized audio processing, where efficient and accurate speech detection is paramount.

Papers

March 23, 2023

Better Together: Dialogue Separation and Voice Activity Detection for Audio Personalization in TV
Matteo Torcoli, Emanuël A. P. Habets
Voice Activity Detection TV Show Personalized Dialogue Weak Signal Dialogue Separation

March 21, 2023

End-to-End Integration of Speech Separation and Voice Activity Detection for Low-Latency Diarization of Telephone Conversations
Giovanni Morrone, Samuele Cornell, Luca Serafini, Enrico Zovato, Alessio Brutti, Stefano Squartini
Automatic Speech Recognition End to End Speech Separation Voice Activity Detection Diarization System Diarization Performance Human Human

January 17, 2023

The Newsbridge -Telecom SudParis VoxCeleb Speaker Recognition Challenge 2022 System Description
Yannis Tevissen, Jérôme Boudy, Frédéric Petitpont
System Description Voice Activity Detection VoxCeleb Speaker Recognition Challenge

December 6, 2022

BC-VAD: A Robust Bone Conduction Voice Activity Detection
Niccolo' Polvani, Damien Ronssin, Milos Cernak
Non Stationary Voice Activity Detection Bone Conduction Microphone

November 12, 2022

October 28, 2022

SG-VAD: Stochastic Gates Based Speech Activity Detection
Jonathan Svirsky, Ofir Lindenbaum
Voice Activity Detection Speech Classification Task Stochastic Gate

October 26, 2022

October 24, 2022

Brouhaha: multi-task training for voice activity detection, speech-to-noise ratio, and C50 room acoustics estimation
Marvin Lavechin, Marianne Métais, Hadrien Titeux, Alodie Boissonnet, Jade Copet, Morgane Rivière, Elika Bergelson, Alejandrina Cristia, Emmanuel Dupoux, Hervé Bredin
Signal to Noise Ratio Voice Activity Detection Multi Task Training Room Acoustic Noisy Reverberant Reverberant Speech

October 14, 2022

Intel Labs at Ego4D Challenge 2022: A Better Baseline for Audio-Visual Diarization
Kyle Min
Strong Baseline Human VOICE Voice Activity Detection EGO4D Challenge Audio Visual Diarization

September 24, 2022

Joint Speech Activity and Overlap Detection with Multi-Exit Architecture
Ziqing Du, Kai Liu, Xucheng Wan, Huan Zhou
Overlap Detection Voice Activity Detection Traditional Neural Network Speech Application Multi Exit Joint Task Overlapped Speech Detection

September 23, 2022

The Kriston AI System for the VoxCeleb Speaker Recognition Challenge 2022
Qutang Cai, Guoqiang Hong, Zhijian Ye, Ximin Li, Haizhou Li
Voice Activity Detection Speech Detection VoxCeleb Speaker Recognition Challenge

September 22, 2022

Cross-domain Voice Activity Detection with Self-Supervised Representations
Sina Alisamir, Fabien Ringeval, Francois Portet
Self Supervised Learning Voice Activity Detection Speech Segment Filter Bank

July 13, 2022

MM-ALT: A Multimodal Automatic Lyric Transcription System
Xiangming Gu, Longshen Ou, Danielle Ong, Ye Wang
Automatic Speech Recognition Voice Activity Detection Automatic Lyric Transcription Multilingual Automatic Lyric Transcription

April 22, 2022

E2E Segmenter: Joint Segmenting and Decoding for Long-Form ASR
W. Ronny Huang, Shuo-yiin Chang, David Rybach, Rohit Prabhavalkar, Tara N. Sainath, Cyril Allauzen, Cal Peyser, Zhiyun Lu
Speech Recognition End to End Voice Activity Detection Joint Segmentation Long Form

March 7, 2022

Visually Supervised Speaker Detection and Localization via Microphone Array
Davide Berghi, Adrian Hilton, Philip J. B. Jackson
Neural Network Localization Focus Microphone Array Voice Activity Detection Active Speaker Detection

March 6, 2022

CNN self-attention voice activity detector
Amit Sofer, Shlomo E. Chazan
Convolutional Neural Network Receptive Field Voice Activity Detection Noisy Input

January 30, 2022

HGCN: Harmonic gated compensation network for speech enhancement
Tianrui Wang, Weibin Zhu, Yingying Gao, Junlan Feng, Shilei Zhang
Speech Enhancement Voice Activity Detection Gating Mechanism Single Channel Speech Enhancement Harmonic Sound Compensation Network

January 22, 2022

NAS-VAD: Neural Architecture Search for Voice Activity Detection
Daniel Rho, Jinhyeok Park, Jong Hwan Ko
Neural Architecture Search Audio Datasets Voice Activity Detection