Masked Language

Masked language modeling (MLM) is a self-supervised learning technique for training language models by masking and predicting words in a sentence. Current research focuses on improving MLM's efficiency and effectiveness through novel masking strategies, enhanced model architectures (like incorporating decoders into encoder-only models), and the development of more robust evaluation metrics for assessing biases and performance across diverse tasks and languages. These advancements are significant because they lead to more accurate and less biased language models with broader applications in natural language processing, including machine translation, text generation, and question answering.

Papers

June 1, 2023

Contextual Distortion Reveals Constituency: Masked Language Models are Implicit Parsers
Jiaxi Li, Wei Lu
Language Model Pre Trained Language Model Masked Language Contextual Biasing Syntactic Information Level Perturbation Earley Style Parser Unsupervised Parsing

May 28, 2023

Rethinking Masked Language Modeling for Chinese Spelling Correction
Hongqiu Wu, Shaohua Zhang, Yuchen Zhang, Hai Zhao
Language Model Masked Language Fine Tuned BERT Multi Domain Benchmark Better Language Model

May 24, 2023

May 18, 2023

May 17, 2023

A Better Way to Do Masked Language Model Scoring
Carina Kauf, Anna Ivanova
Language Model Masked Language Autoregressive Language Model Log Likelihood Pseudo Likelihood Better Way

May 12, 2023

Constructing Holistic Measures for Social Biases in Masked Language Models
Yang Liu, Yuexian Hou
Social Bias Masked Language Stereotypical Bias Holistic Evaluation

May 11, 2023

Masked Audio Text Encoders are Effective Multi-Modal Rescorers
Jinglun Cai, Monica Sunkara, Xilai Li, Anshu Bhatia, Xiao Pan, Sravan Bodapati
Automatic Speech Recognition Automatic Speech Recognition System Masked Language Acoustic Representation Mask Encoder

May 5, 2023

Exploring Softly Masked Language Modelling for Controllable Symbolic Music Generation
Nicolas Jonason, Bob L. T. Sturm
Transformer Based Masked Language Symbolic Music Generation Language Modelling Audio Sample

April 29, 2023

POUF: Prompt-oriented unsupervised fine-tuning for large pre-trained models
Korawat Tanwisuth, Shujian Zhang, Huangjie Zheng, Pengcheng He, Mingyuan Zhou
Fine Tuning Large Pre Trained Model Masked Language Large Scale Pre Trained Model Natural Language Inference Task Unsupervised Fine Tuning

April 18, 2023

Masked Language Model Based Textual Adversarial Example Detection
Xiaomei Zhang, Zhaoxi Zhang, Qi Zhong, Xufei Zheng, Yanjun Zhang, Shengshan Hu, Leo Yu Zhang
Adversarial Attack Adversarial Example Masked Language Adversarial DEfense Textual Adversarial Example

April 4, 2023

Unsupervised Improvement of Factual Knowledge in Language Models
Nafis Sadeq, Byungkyu Kang, Prarit Lamba, Julian McAuley
Large Language Model Language Model Masked Language Factual Knowledge Unsupervised Error Correction

March 13, 2023

AMOM: Adaptive Masking over Masking for Conditional Masked Language Model
Yisheng Xiao, Ruiyang Xu, Lijun Wu, Juntao Li, Tao Qin, Yan-Tie Liu, Min Zhang
Language Model Neural Machine Translation Masked Language Sequence Generation Erase Based Masking Sequence Generation Task

February 23, 2023

Dynamic Benchmarking of Masked Language Models on Temporal Concept Drift with Multiple Views
Katerina Margatina, Shuai Wang, Yogarshi Vyas, Neha Anna John, Yassine Benajiba, Miguel Ballesteros
Language Model Masked Language Multiple View Token Generation Test Set Dynamic Benchmark

February 4, 2023

Representation Deficiency in Masked Language Modeling
Yu Meng, Jitin Krishnan, Sinong Wang, Qifan Wang, Yuning Mao, Han Fang, Marjan Ghazvininejad, Jiawei Han, Luke Zettlemoyer
Masked Language Masked Language Modeling Token Representation Bidirectional Encoders Representation Gap

January 25, 2023

XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked Language Models
Davis Liang, Hila Gonen, Yuning Mao, Rui Hou, Naman Goyal, Marjan Ghazvininejad, Luke Zettlemoyer, Madian Khabsa
Multilingual Model Multilingual Language Model Masked Language Multilingual Lexicon Language Bottleneck

January 11, 2023

NarrowBERT: Accelerating Masked Language Model Pretraining and Inference
Haoxin Li, Phillip Keung, Daniel Cheng, Jungo Kasai, Noah A. Smith
Language Model Scientific Inference Masked Language Transformer Encoder Scale Pre Trained Language Model

December 30, 2022

Inconsistencies in Masked Language Models
Tom Young, Yunan Chen, Yang You
Masked Language Hard to Easy Inconsistency Powerful Language Model Mask Optimization