Scale Pre Trained Language Model

Scale pre-trained language models (PLMs) are massive neural networks trained on enormous text datasets, aiming to achieve human-level performance on various natural language processing tasks. Current research focuses on improving efficiency (e.g., through techniques like pruning, quantization, and dynamic planning), enhancing alignment with human values (e.g., via fine-grained supervision and differentially private training), and exploring parameter-efficient fine-tuning methods (e.g., adapters and prompt tuning). These advancements are significant because they address the computational cost and ethical concerns associated with deploying these powerful models, while also expanding their applicability across diverse domains.

Papers

May 11, 2023

Randomized Smoothing with Masked Inference for Adversarially Robust Text Classifications
Han Cheol Moon, Shafiq Joty, Ruochen Zhao, Megh Thakkar, Xu Chi
Adversarial Example Adversarial Robustness NLP Model Scale Pre Trained Language Model Masked Modeling Smoothing Factor Robust Text Classification

May 8, 2023

HiFi: High-Information Attention Heads Hold for Parameter-Efficient Model Adaptation
Anchun Gui, Han Xiao
Fine Tuning Scale Pre Trained Language Model Structured Information PageRank Algorithm Efficient Model Adaptation

March 31, 2023

Attention is Not Always What You Need: Towards Efficient Classification of Domain-Specific Text
Yasmen Wahba, Nazim Madhavji, John Steinbacher
Natural Language Processing Human Attention Text Classification Domain Specific Scale Pre Trained Language Model Efficient Classification Domain Specific Text Classification

March 18, 2023

An Empirical Study of Pre-trained Language Models in Simple Knowledge Graph Question Answering
Nan Hu, Yike Wu, Guilin Qi, Dehai Min, Jiaoyan Chen, Jeff Z. Pan, Zafar Ali
Natural Language Processing Pre Trained Language Model Empirical Study NLP Community Multiple Choice Scale Pre Trained Language Model Knowledge Graph Question Answering

February 7, 2023

UDApter -- Efficient Domain Adaptation Using Adapters
Bhavitvya Malik, Abhinav Ramesh Kashyap, Min-Yen Kan, Soujanya Poria
Unsupervised Domain Adaptation Adapter Module Scale Pre Trained Language Model Natural Language Inference Task Efficient Domain Adaptation Domain Sentiment

January 30, 2023

Knowledge Transfer from Pre-trained Language Models to Cif-based Speech Recognizers via Hierarchical Distillation
Minglun Han, Feilong Chen, Jing Shi, Shuang Xu, Bo Xu
Knowledge Distillation Automatic Speech Recognition Pre Trained Language Model Knowledge Transfer Scale Pre Trained Language Model Cross Modal Knowledge Distillation Map Distillation

January 22, 2023

An Empirical Study of Metrics to Measure Representational Harms in Pre-Trained Language Models
Saghar Hosseini, Hamid Palangi, Ahmed Hassan Awadallah
Pre Trained Language Model Empirical Study Metric Library Scale Pre Trained Language Model Representational Harm

January 11, 2023

NarrowBERT: Accelerating Masked Language Model Pretraining and Inference
Haoxin Li, Phillip Keung, Daniel Cheng, Jungo Kasai, Noah A. Smith
Language Model Scientific Inference Masked Language Transformer Encoder Scale Pre Trained Language Model

December 27, 2022

TegFormer: Topic-to-Essay Generation with Good Topic Coverage and High Text Coherence
Wang Qi, Rui Liu, Yuan Zuo, Yong Chen, Dell Zhang
Faithful Generation Language Generation Domain Specific Topic Analysis Scale Pre Trained Language Model Coherent Text Semantic Content

November 3, 2022

Fine-Tuning Pre-Trained Language Models Effectively by Optimizing Subnetworks Adaptively
Haojie Zhang, Ge Li, Jia Li, Zhongjin Zhang, Yuqi Zhu, Zhi Jin
Language Model Pre Trained Language Model Large Scale Pre Trained Model Scale Pre Trained Language Model Parameter Selection

October 24, 2022

An Empirical Revisiting of Linguistic Knowledge Fusion in Language Understanding Tasks
Changlong Yu, Tianyi Xiao, Lingpeng Kong, Yangqiu Song, Wilfred Ng
Language Model Language Understanding Task Scale Pre Trained Language Model Knowledge Fusion Language Prior

October 23, 2022

Language Model Pre-Training with Sparse Latent Typing
Liliang Ren, Zixuan Zhang, Han Wang, Clare R. Voss, Chengxiang Zhai, Heng Ji
Language Model Scale Pre Trained Language Model Language Model Pre Training Latent Category Sparse Latent

October 19, 2022

Self-supervised Graph Masking Pre-training for Graph-to-Text Generation
Jiuzhou Han, Ehsan Shareghi
Graph Drawing Scale Pre Trained Language Model Masked Graph Text to Graph Graph to Text Encoder DEcoder

October 8, 2022

AlphaTuning: Quantization-Aware Parameter-Efficient Adaptation of Large-Scale Pre-Trained Language Models
Se Jung Kwon, Jeonghoon Kim, Jeongin Bae, Kang Min Yoo, Jin-Hwa Kim, Baeseong Park, Byeongwook Kim, Jung-Woo Ha, Nako Sung, Dongsoo Lee
Model Compression Large Scale Language Model Scale Pre Trained Language Model Hyper Tune Parameter Efficient Adaptation

June 24, 2022

SC-Ques: A Sentence Completion Question Dataset for English as a Second Language Learners
Qiongqiong Liu, Yaying Huang, Zitao Liu, Shuyan Huang, Jiahao Chen, Xiangyu Zhao, Guimin Lin, Yuyu Zhou, Weiqi Luo
Sentence Level Scale Pre Trained Language Model Language Learner

June 16, 2022

Self-Generated In-Context Learning: Leveraging Auto-regressive Language Models as a Demonstration Generator
Hyuhng Joon Kim, Hyunsoo Cho, Junyeob Kim, Taeuk Kim, Kang Min Yoo, Sang-goo Lee
Context Learning Zero Shot Learning Scale Pre Trained Language Model

June 12, 2022

Improving Pre-trained Language Model Fine-tuning with Noise Stability Regularization
Hang Hua, Xingjian Li, Dejing Dou, Cheng-Zhong Xu, Jiebo Luo
Language Model Pre Trained Language Model Scale Pre Trained Language Model State of the Art Language Surface Regularization

June 11, 2022

Building a Personalized Dialogue System with Prompt-Tuning
Tomohito Kasahara, Daisuke Kawahara, Nguyen Tung, Shengzhe Li, Kenta Shinzato, Toshinori Sato
Language Model Dialogue System Scale Pre Trained Language Model Personalized Dialogue

May 16, 2022

Heroes, Villains, and Victims, and GPT-3: Automated Extraction of Character Roles Without Training Data
Dominik Stammbach, Maria Antoniak, Elliott Ash
Training Data Narrative Text Character Persona Scale Pre Trained Language Model Automatic Extraction Zero to HeRo

May 8, 2022

Beyond Distributional Hypothesis: Let Language Models Learn Meaning-Text Correspondence
Myeongjun Jang, Frank Mtumbuka, Thomas Lukasiewicz
Text to Text Distributional Assumption Scale Pre Trained Language Model Lexical Semantics Lexical Semantic Natural Language Negation

Scale Pre Trained Language Model

Papers

Randomized Smoothing with Masked Inference for Adversarially Robust Text Classifications

HiFi: High-Information Attention Heads Hold for Parameter-Efficient Model Adaptation

Attention is Not Always What You Need: Towards Efficient Classification of Domain-Specific Text

An Empirical Study of Pre-trained Language Models in Simple Knowledge Graph Question Answering

UDApter -- Efficient Domain Adaptation Using Adapters

Knowledge Transfer from Pre-trained Language Models to Cif-based Speech Recognizers via Hierarchical Distillation

An Empirical Study of Metrics to Measure Representational Harms in Pre-Trained Language Models

NarrowBERT: Accelerating Masked Language Model Pretraining and Inference

TegFormer: Topic-to-Essay Generation with Good Topic Coverage and High Text Coherence

Fine-Tuning Pre-Trained Language Models Effectively by Optimizing Subnetworks Adaptively

An Empirical Revisiting of Linguistic Knowledge Fusion in Language Understanding Tasks

Language Model Pre-Training with Sparse Latent Typing

Self-supervised Graph Masking Pre-training for Graph-to-Text Generation

AlphaTuning: Quantization-Aware Parameter-Efficient Adaptation of Large-Scale Pre-Trained Language Models

SC-Ques: A Sentence Completion Question Dataset for English as a Second Language Learners

Self-Generated In-Context Learning: Leveraging Auto-regressive Language Models as a Demonstration Generator

Improving Pre-trained Language Model Fine-tuning with Noise Stability Regularization

Building a Personalized Dialogue System with Prompt-Tuning

Heroes, Villains, and Victims, and GPT-3: Automated Extraction of Character Roles Without Training Data

Beyond Distributional Hypothesis: Let Language Models Learn Meaning-Text Correspondence