Acoustic Word Embeddings

Acoustic word embeddings (AWEs) are fixed-length vector representations of spoken words, aiming to capture both phonetic and semantic information for improved speech processing. Current research focuses on enhancing AWE models using techniques like self-supervised learning (e.g., HuBERT, Wav2vec 2.0), multi-view learning (combining acoustic and textual data), and various deep metric learning loss functions (e.g., proxy losses). These advancements are improving performance in diverse applications, including keyword spotting, speech emotion recognition, and low-resource language processing, by enabling more accurate and efficient analysis of spoken language.

Papers

September 14, 2022

Integrating Form and Meaning: A Multi-Task Learning Model for Acoustic Word Embeddings
Badr M. Abdullah, Bernd Möbius, Dietrich Klakow
Multi Task Learning Multiple Meaning First Integral Acoustic Word Embeddings Lexical Knowledge Lexical Representation Lexical Processing

July 11, 2022

Multi-level Fusion of Wav2vec 2.0 and BERT for Multimodal Emotion Recognition
Zihan Zhao, Yanfeng Wang, Yu Wang
Transfer Learning Ticket BERT Multimodal Emotion Recognition Multi Level Fusion Acoustic Word Embeddings Frame Level

June 10, 2022

Zero-Shot Audio Classification using Image Embeddings
Duygu Dogan, Huang Xie, Toni Heittola, Tuomas Virtanen
Zero Shot Visual Semantic Image Embeddings Acoustic Word Embeddings

April 4, 2022

An Analysis of Semantically-Aligned Speech-Text Embeddings
Muhammad Huzaifah, Ivan Kukanov
General Analysis Jina Embeddings Cross Modal Semantic Alignment Modal Embeddings Multi Modal Language Model Acoustic Word Embeddings

March 30, 2022

Asymmetric Proxy Loss for Multi-View Acoustic Word Embeddings
Myunghun Jung, Hoirin Kim
Word Embeddings Deep Metric Learning Multi View Learning Acoustic Word Embeddings Proxy Based Loss

December 13, 2021

Detecting Emotion Carriers by Combining Acoustic and Lexical Representations
Sebastian P. Bayerl, Aniruddha Tammewar, Korbinian Riedhammer, Giuseppe Riccardi
Emotion Recognition Target Emotion Spoken Narrative Acoustic Word Embeddings Lexical Representation Speech Emotion Corpus