Large Pre Trained Language Model

Large pre-trained language models (LLMs) are powerful AI systems trained on massive text datasets, aiming to achieve human-level natural language understanding and generation. Current research focuses on improving efficiency (e.g., through parameter-efficient fine-tuning methods like LoRA and BitFit, and exploring alternative architectures like ModuleFormer), addressing biases and improving robustness (e.g., via data augmentation and techniques to mitigate hallucinations), and adapting LLMs to low-resource languages (e.g., using translation and few-shot learning). These advancements have significant implications for various applications, including dialogue systems, text-to-code generation, and biomedical natural language processing, while also raising important considerations regarding computational cost and ethical implications.

Papers

June 16, 2023

Data Selection for Fine-tuning Large Language Models Using Transferred Shapley Values
Stephanie Schoch, Ritwick Mishra, Yangfeng Ji
Language Model Shapley Value Large Pre Trained Language Model Data Selection

June 15, 2023

Bridging the Gap between Decision and Logits in Decision-based Knowledge Distillation for Pre-trained Language Models
Qinhong Zhou, Zonghan Yang, Peng Li, Yang Liu
Pre Trained Language Model Language Understanding Large Pre Trained Language Model Decision Relevant Information Second Ranked Logits Conventional Knowledge Distillation

June 12, 2023

On the N-gram Approximation of Pre-trained Language Models
Aravind Krishnan, Jesujoba Alabi, Dietrich Klakow
Automatic Speech Recognition Pre Trained Language Model Large Pre Trained Language Model N Gram Language Modelling Domain Corpus

June 8, 2023

Extensive Evaluation of Transformer-based Architectures for Adverse Drug Events Extraction
Simone Scaboro, Beatrice Portellia, Emmanuele Chersoni, Enrico Santus, Giuseppe Serra
Transformer Based Model Comprehensive Evaluation NLP Community Large Pre Trained Language Model Transformer Based Architecture Pharmacovigilance Event Extraction Adverse Drug Event Extraction

June 7, 2023

ModuleFormer: Modularity Emerges from Mixture-of-Experts
Yikang Shen, Zheyu Zhang, Tianyou Cao, Shawn Tan, Zhenfang Chen, Chuang Gan
Language Model Large Pre Trained Language Model Modularity Function Scale LLM

June 5, 2023

"Medium" LMs of Code in the Era of LLMs: Lessons From StackOverflow
Manisha Mukherjee, Vincent J. Hellendoorn
Large Language Model Medical LLM Pre Trained Model Large Corpus Real World Code Critical Lesson Large Pre Trained Language Model BERT Based Tuned Lm Stack Overflow

June 4, 2023

Exploring the Impact of Model Scaling on Parameter-Efficient Tuning
Yusheng Su, Chi-Min Chan, Jiali Cheng, Yujia Qin, Yankai Lin, Shengding Hu, Zonghan Yang, Ning Ding, Xingzhi Sun, Guotong Xie, Zhiyuan Liu, Maosong Sun
Global Impact Large Pre Trained Language Model Parameter Efficient Tuning Model Scaling

June 3, 2023

A Comprehensive Survey on Relation Extraction: Recent Advances and New Frontiers
Xiaoyan Zhao, Yang Deng, Min Yang, Lingzhi Wang, Rui Zhang, Hong Cheng, Wai Lam, Ying Shen, Ruifeng Xu
Comprehensive Survey Knowledge Graph Completion Recent Advance Large Pre Trained Language Model Text Representation New Frontier Many Natural Language Processing

May 30, 2023

Preserving Pre-trained Features Helps Calibrate Fine-tuned Language Models
Guande He, Jianfei Chen, Jun Zhu
Language Understanding Feature Wise Large Pre Trained Language Model Fine Tuned Model Fine Tuned Language Model Language Modeling Objective

May 28, 2023

Stochastic Bridges as Effective Regularizers for Parameter-Efficient Tuning
Weize Chen, Xu Han, Yankai Lin, Zhiyuan Liu, Maosong Sun, Jie Zhou
Large Pre Trained Language Model Parameter Efficient Tuning Effective Regularization Brownian Bridge

May 26, 2023

Neural Architecture Search for Parameter-Efficient Fine-tuning of Large Pre-trained Language Models
Neal Lawton, Anoop Kumar, Govind Thattai, Aram Galstyan, Greg Ver Steeg
Pre Trained Language Model Neural Architecture Search Parameter Efficient Fine Tuning Large Pre Trained Language Model Parameter Efficient Tuning Pre Trained Network

May 24, 2023

May 23, 2023

May 17, 2023

When Gradient Descent Meets Derivative-Free Optimization: A Match Made in Black-Box Scenario
Chengcheng Han, Liqing Cui, Renyu Zhu, Jianing Wang, Nuo Chen, Qiushi Sun, Xiang Li, Ming Gao
Gradient Descent Black Box Large Pre Trained Language Model Gradient Free Derivative Free Optimization Black Box Tuning

May 9, 2023

Large Language Model Programs
Imanol Schlag, Sainbayar Sukhbaatar, Asli Celikyilmaz, Wen-tau Yih, Jason Weston, Jürgen Schmidhuber, Xian Li
Complex Reasoning Question Answering Large Pre Trained Language Model Context Example Novel Task

April 30, 2023

Reliable Gradient-free and Likelihood-free Prompt Tuning
Maohao Shen, Soumya Ghosh, Prasanna Sattigeri, Subhro Das, Yuheng Bu, Gregory Wornell
Complex Prompt Prompt Tuning Large Pre Trained Language Model Gradient Free Soft Prompt Input Embeddings Soft Prompt Tuning

Large Pre Trained Language Model

Papers

Data Selection for Fine-tuning Large Language Models Using Transferred Shapley Values

Bridging the Gap between Decision and Logits in Decision-based Knowledge Distillation for Pre-trained Language Models

On the N-gram Approximation of Pre-trained Language Models

Extensive Evaluation of Transformer-based Architectures for Adverse Drug Events Extraction

ModuleFormer: Modularity Emerges from Mixture-of-Experts

"Medium" LMs of Code in the Era of LLMs: Lessons From StackOverflow

Exploring the Impact of Model Scaling on Parameter-Efficient Tuning

A Comprehensive Survey on Relation Extraction: Recent Advances and New Frontiers

Preserving Pre-trained Features Helps Calibrate Fine-tuned Language Models

Stochastic Bridges as Effective Regularizers for Parameter-Efficient Tuning

Neural Architecture Search for Parameter-Efficient Fine-tuning of Large Pre-trained Language Models

Towards Adaptive Prefix Tuning for Parameter-Efficient Language Model Fine-tuning

EXnet: Efficient In-context Learning for Data-less Text classification

Unraveling ChatGPT: A Critical Analysis of AI-Generated Goal-Oriented Dialogues and Annotations

RetICL: Sequential Retrieval of In-Context Examples with Reinforcement Learning

HumBEL: A Human-in-the-Loop Approach for Evaluating Demographic Factors of Language Models in Human-Machine Conversations

Regex-augmented Domain Transfer Topic Classification based on a Pre-trained Language Model: An application in Financial Domain

When Gradient Descent Meets Derivative-Free Optimization: A Match Made in Black-Box Scenario

Large Language Model Programs

Reliable Gradient-free and Likelihood-free Prompt Tuning