Code Switched Data

Code-switched data, encompassing text and speech where multiple languages are interwoven within a single utterance, presents a significant challenge and opportunity for natural language processing. Current research focuses on mitigating data scarcity for low-resource languages through techniques like data augmentation using large language models (e.g., GPT) and fine-tuning pre-trained multilingual models (e.g., wav2vec 2.0 XLSR) or adapting existing multilingual models for code-switching. These efforts aim to improve the performance of various NLP tasks, including speech recognition, machine translation, and information retrieval, ultimately leading to more inclusive and accurate language technologies for multilingual communities.

Papers

April 26, 2024

Prompting Towards Alleviating Code-Switched Data Scarcity in Under-Resourced Languages with GPT as a Pivot
Michelle Terblanche, Kayode Olaleye, Vukosi Marivate
GPT Neo African Language Code Switched Low Resourced Language Resourced Language Pivot Element Recogniton Code Switched Data

November 25, 2023

Multilingual self-supervised speech representations improve the speech recognition of low-resource African languages with codeswitching
Tolúlopé Ògúnrèmí, Christopher D. Manning, Dan Jurafsky
Self Supervised Speech Recognition African Language Self Supervised Speech Representation Gram Language Model Code Switched Data

October 31, 2023

Representativeness as a Forgotten Lesson for Multilingual and Code-switched Data Collection and Preparation
A. Seza Doğruöz, Sunayana Sitaram, Zheng-Xin Yong
MAESTRO Dataset Anti Forgetting Multilingual Language Model Language Pair Geographical Representativeness Code Switched Data

October 11, 2023

Adapting the adapters for code-switching in multilingual ASR
Atharva Kulkarni, Ajinkya Kulkarni, Miguel Couceiro, Hanan Aldarmaki
Multilingual Model Multilingual Automatic Speech Recognition Adapter Module Code Switched Code Switched Data

May 9, 2023

Boosting Zero-shot Cross-lingual Retrieval by Training on Artificially Code-Switched Data
Robert Litschko, Ekaterina Artemova, Barbara Plank
Zero Shot Training Data Cross Lingual MultiLingual Information Retrieval Cross Lingual Retrieval Code Switched Data

November 14, 2022

CST5: Data Augmentation for Code-Switched Semantic Parsing
Anmol Agarwal, Jigar Gupta, Rahul Goel, Shyam Upadhyay, Pankaj Joshi, Rengarajan Aravamudhan
Data Augmentation Semantic Parsing Code Switched Semantic Parser Code Switched Data

February 19, 2022

CALCS 2021 Shared Task: Machine Translation for Code-Switched Data
Shuguang Chen, Gustavo Aguilar, Anirudh Srinivasan, Mona Diab, Thamar Solorio
Machine Translation Social Medium Language Pair Shared Task First Integral Code Switching Code Switched Data

November 4, 2020

Data Augmentation for End-to-end Code-switching Speech Recognition
Chenpeng Du, Hao Li, Yizhou Lu, Lan Wang, Yanmin Qian
Data Augmentation Automatic Speech Recognition Code Switching Code Switched Data