Sequential Audio

Sequential audio processing focuses on analyzing and understanding the temporal order and relationships within audio streams, aiming to improve tasks like audio classification, tagging, and video generation. Current research emphasizes the use of transformer-based architectures, often incorporating bidirectional processing and attention mechanisms to effectively capture contextual information within audio sequences, outperforming previous methods like connectionist temporal classification. These advancements are significant for applications ranging from improved music information retrieval and sound event detection to more sophisticated audio-reactive video generation.

Papers

September 8, 2023

The Power of Sound (TPoS): Audio Reactive Video Generation with Stable Diffusion
Yujin Jeong, Wonjeong Ryoo, Seunghyun Lee, Dabin Seo, Wonmin Byeon, Sangpil Kim, Jinkyu Kim
Video Generation Real Power Stable Diffusion Sound Design Audio Encoder Video Pair Video to Audio Generation Sequential Audio

May 31, 2023

Learning Music Sequence Representation from Text Supervision
Tianyu Chen, Yuan Xie, Shuai Zhang, Shaohan Huang, Haoyi Zhou, Jianxin Li
Contrastive Learning Music Representation Text Supervision Sequential Audio

October 22, 2022

GCT: Gated Contextual Transformer for Sequential Audio Tagging
Yuanbo Hou, Yun Wang, Wenwu Wang, Dick Botteldooren
Connectionist Temporal Classification Audio Datasets Context Transformer Sequential Audio

October 20, 2022

Play It Back: Iterative Attention for Audio Recognition
Alexandros Stergiou, Dima Damen
Fine Grained Attention Based Architecture Audio Recognition Audio Classification Benchmark Attention Trait Sequential Audio

March 22, 2022

CT-SAT: Contextual Transformer for Sequential Audio Tagging
Yuanbo Hou, Zhaoyi Liu, Bo Kang, Yun Wang, Dick Botteldooren
Fine Grained Context Transformer Sequential Audio

Sequential Audio

Papers

The Power of Sound (TPoS): Audio Reactive Video Generation with Stable Diffusion

Learning Music Sequence Representation from Text Supervision

GCT: Gated Contextual Transformer for Sequential Audio Tagging

Play It Back: Iterative Attention for Audio Recognition

CT-SAT: Contextual Transformer for Sequential Audio Tagging