Monolingual Model

Monolingual models, trained exclusively on a single language's data, offer a counterpoint to multilingual models in natural language processing. Research currently focuses on comparing their performance against multilingual counterparts across various tasks, including speech recognition, sentiment analysis, and named entity recognition, often employing transformer-based architectures like BERT and its variants. This comparative approach aims to determine the optimal model type for specific languages and tasks, considering factors like resource availability and the need to mitigate biases or security vulnerabilities. The findings inform the development of more effective and ethical NLP systems for diverse languages and applications.

Papers

March 11, 2024

Multilingual Turn-taking Prediction Using Voice Activity Projection
Koji Inoue, Bing'er Jiang, Erik Ekstedt, Tatsuya Kawahara, Gabriel Skantze
Monolingual Model Spoken Dialogue Turn Taking Prediction

February 19, 2024

Team QUST at SemEval-2024 Task 8: A Comprehensive Study of Monolingual and Multilingual Approaches for Detecting AI-generated Text
Xiaoman Xu, Xiangrun Li, Taihang Wang, Jianxiang Tian, Ye Jiang
Cross Lingual SemEval 2022 Task AI Generated Text Monolingual Model Monolingual Data Monolingual Text

January 29, 2024

Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You
Felix Friedrich, Katharina Hämmerl, Patrick Schramowski, Manuel Brack, Jindrich Libovicky, Kristian Kersting, Alexander Fraser
Text to Image Generation Multilingual Model Prompt Engineering Model Bias Monolingual Model Diverse Representation

January 25, 2024

December 26, 2023

Towards Better Monolingual Japanese Retrievers with Multi-Vector Models
Benjamin Clavié
Multilingual Model App to App Retrieval Monolingual Model Hard Negative Monolingual Retrieval Japanese Sentence Multilingual Word Embeddings

December 16, 2023

Cross-Linguistic Offensive Language Detection: BERT-Based Analysis of Bengali, Assamese, & Bodo Conversational Hateful Content from Social Media
Jhuma Kabir Mim, Mourad Oussalah, Akash Singhal
Social Medium BERT Model Hate Speech Bangla Text Monolingual Model Hateful Content Offensive Content Offensive Language Detection

December 1, 2023

Explanatory Argument Extraction of Correct Answers in Resident Medical Exams
Iakes Goenaga, Aitziber Atutxa, Koldo Gojenola, Maite Oronoz, Rodrigo Agerri
Language Model Natural Language Multilingual Model Monolingual Model Evidence Based State Medical Licensing Examination Argument Extraction

November 20, 2023

Multi-teacher Distillation for Multilingual Spelling Correction
Jingfen Zhang, Xuan Guo, Sravan Bodapati, Christopher Potts
Monolingual Model Spelling Correction Multi Teacher Distillation

November 3, 2023

FinGPT: Large Generative Models for a Small Language
Risto Luukkonen, Ville Komulainen, Jouni Luoma, Anni Eskelinen, Jenna Kanerva, Hanna-Mari Kupari, Filip Ginter, Veronika Laippala, Niklas Muennighoff, Aleksandra Piktus, Thomas Wang, Nouamane Tazi, Teven Le Scao, Thomas Wolf, Osma Suominen, Samuli Sairanen, Mikko Merioksa, Jyrki Heinonen, Aija Vahtola, Samuel Antao, Sampo Pyysalo
Large Language Model Low Resource Language Monolingual Model Large Generative Model Open Science Open Access Multilingual

October 24, 2023

A Joint Matrix Factorization Analysis of Multilingual Representations
Zheng Zhao, Yftah Ziser, Bonnie Webber, Shay B. Cohen
Latent Representation Matrix Factorization Monolingual Model Morphosyntactic Analysis Multilingual Representation

October 5, 2023

Evaluating Self-Supervised Speech Representations for Indigenous American Languages
Chih-Chen Chen, William Chen, Rodolfo Zevallos, John E. Ortega
Low Resource Speech Representation Self Supervision Speech Corpus Monolingual Model Self Supervised Speech Representation Indigenous Language

August 7, 2023

MedMine: Examining Pre-trained Language Models on Medication Mining
Haifa Alrdahi, Lifeng Han, Hendrik Šuvalov, Goran Nenadic
Pre Trained Language Model Multilingual Large Language Model Monolingual Model Extraction Model Medication Mining

June 27, 2023

Confidence-based Ensembles of End-to-End Speech Recognition Models
Igor Gitman, Vitaly Lavrukhin, Aleksandr Laptev, Boris Ginsburg
End to End Language Identification Monolingual Model Confidence Based

June 4, 2023

A Technical Report for Polyglot-Ko: Open-Source Large-Scale Korean Language Models
Hyunwoong Ko, Kichang Yang, Minho Ryu, Taekyoon Choi, Seungmu Yang, Jiwung Hyun, Sungho Park, Kyubyong Park
Language Model Multilingual Model Technical Report Monolingual Model Polyglot File

June 3, 2023

MultiLegalPile: A 689GB Multilingual Legal Corpus
Joel Niklaus, Veton Matoshi, Matthias Stürmer, Ilias Chalkidis, Daniel E. Ho
Multilingual Model NLP Model Monolingual Model

May 24, 2023

An Efficient Multilingual Language Model Compression through Vocabulary Trimming
Asahi Ushio, Yi Zhou, Jose Camacho-Collados
Multilingual Language Model Monolingual Model Enhanced Vocabulary Language Model Compression

May 9, 2023

Exploration of Language Dependency for Japanese Self-Supervised Speech Representation Models
Takanori Ashihara, Takafumi Moriya, Kohei Matsuura, Tomohiro Tanaka
Self Supervised Environment Exploration Automatic Speech Recognition Performance Monolingual Model Cross Lingual Model Self Supervised Speech Representation Model Language Driven

May 3, 2023

Exploring Linguistic Properties of Monolingual BERTs with Typological Classification among Languages
Elena Sofia Ruzzetti, Federico Ranaldi, Felicia Logozzo, Michele Mastromattei, Leonardo Ranaldi, Fabio Massimo Zanzotto
Domain Adaptation Unknown Language Monolingual Model Typological Exploration Linguistic Property Monolingual BERT Model BERT Pruning

April 9, 2023

Team QUST at SemEval-2023 Task 3: A Comprehensive Study of Monolingual and Multilingual Approaches for Detecting Online News Genre, Framing and Persuasion Techniques
Ye Jiang
Cross Lingual SemEval 2022 Task Cross Validation Monolingual Model Monolingual Text Pre Trained Multilingual Model Online Newspaper Persuasion Strategy SemEval Task

Monolingual Model

Papers

Multilingual Turn-taking Prediction Using Voice Activity Projection

Team QUST at SemEval-2024 Task 8: A Comprehensive Study of Monolingual and Multilingual Approaches for Detecting AI-generated Text

Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You

MEDs for PETs: Multilingual Euphemism Disambiguation for Potentially Euphemistic Terms

TURNA: A Turkish Encoder-Decoder Language Model for Enhanced Understanding and Generation

Towards Better Monolingual Japanese Retrievers with Multi-Vector Models

Cross-Linguistic Offensive Language Detection: BERT-Based Analysis of Bengali, Assamese, & Bodo Conversational Hateful Content from Social Media

Explanatory Argument Extraction of Correct Answers in Resident Medical Exams

Multi-teacher Distillation for Multilingual Spelling Correction

FinGPT: Large Generative Models for a Small Language

A Joint Matrix Factorization Analysis of Multilingual Representations

Evaluating Self-Supervised Speech Representations for Indigenous American Languages

MedMine: Examining Pre-trained Language Models on Medication Mining

Confidence-based Ensembles of End-to-End Speech Recognition Models

A Technical Report for Polyglot-Ko: Open-Source Large-Scale Korean Language Models

MultiLegalPile: A 689GB Multilingual Legal Corpus

An Efficient Multilingual Language Model Compression through Vocabulary Trimming

Exploration of Language Dependency for Japanese Self-Supervised Speech Representation Models

Exploring Linguistic Properties of Monolingual BERTs with Typological Classification among Languages

Team QUST at SemEval-2023 Task 3: A Comprehensive Study of Monolingual and Multilingual Approaches for Detecting Online News Genre, Framing and Persuasion Techniques