Large Pre Trained Language Model

Large pre-trained language models (LLMs) are powerful AI systems trained on massive text datasets, aiming to achieve human-level natural language understanding and generation. Current research focuses on improving efficiency (e.g., through parameter-efficient fine-tuning methods like LoRA and BitFit, and exploring alternative architectures like ModuleFormer), addressing biases and improving robustness (e.g., via data augmentation and techniques to mitigate hallucinations), and adapting LLMs to low-resource languages (e.g., using translation and few-shot learning). These advancements have significant implications for various applications, including dialogue systems, text-to-code generation, and biomedical natural language processing, while also raising important considerations regarding computational cost and ethical implications.

Papers

April 20, 2023

MarsEclipse at SemEval-2023 Task 3: Multi-Lingual and Multi-Label Framing Detection with Contrastive Learning
Qisheng Liao, Meiting Lai, Preslav Nakov
Contrastive Learning SemEval 2022 Task Large Pre Trained Language Model Multi Label Contrastive

April 18, 2023

CancerGPT: Few-shot Drug Pair Synergy Prediction using Large Pre-trained Language Models
Tianhao Li, Sandesh Shetty, Advaith Kamath, Ajay Jaiswal, Xianqian Jiang, Ying Ding, Yejin Kim
Shot Learning Large Pre Trained Language Model Reaction Prediction Drug Synergy Prediction

April 13, 2023

Evaluation of Social Biases in Recent Large Pre-Trained Models
Swapnil Sharma, Nikita Anand, Kranthi Kiran G. V., Alind Jain
Global Evaluation Social Bias Large Pre Trained Model Large Pre Trained Language Model Inherent Bias Bias Reduction

April 11, 2023

Towards preserving word order importance through Forced Invalidation
Hadeel Al-Negheimish, Pranava Madhyastha, Alessandra Russo
Pre Trained Language Model Language Understanding Large Pre Trained Language Model Word Order Natural Language Understanding Task

April 6, 2023

Investigating Chain-of-thought with ChatGPT for Stance Detection on Social Media
Bowen Zhang, Xianghua Fu, Daijun Ding, Hu Huang, Genan Dai, Nan Yin, Yangyang Li, Liwen Jing
ChatGPT Generated Conversation Social Medium Stance Detection Large Pre Trained Language Model Traditional Machine Learning

March 18, 2023

AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning
Qingru Zhang, Minshuo Chen, Alexander Bukharin, Nikos Karampatziakis, Pengcheng He, Yu Cheng, Weizhu Chen, Tuo Zhao
Natural Language Processing Language Generation Parameter Efficient Fine Tuning Low Rank Large Pre Trained Language Model

March 6, 2023

Towards Zero-Shot Functional Compositionality of Language Models
Hangyeol Yu, Myeongho Jeong, Jamin Shin, Hyeongdon Moon, Juneyoung Park, Seungtaek Choi
Language Model Large Pre Trained Language Model Compositional Zero Shot Learning Evaluating Generalizability

March 2, 2023

Can BERT Refrain from Forgetting on Sequential Tasks? A Probing Study
Mingxu Tao, Yansong Feng, Dongyan Zhao
Pre Trained Language Model Catastrophic Forgetting Ticket BERT Large Pre Trained Language Model Linear Probing Memory Replay Sequential Task

February 17, 2023

KILM: Knowledge Injection into Encoder-Decoder Language Models
Yan Xu, Mahdi Namazifar, Devamanyu Hazarika, Aishwarya Padmakumar, Yang Liu, Dilek Hakkani-Tür
Language Model Large Pre Trained Language Model Knowledge Injection Entity Knowledge Generative Interpretation

February 13, 2023

Parameter-efficient Modularised Bias Mitigation via AdapterFusion
Deepak Kumar, Oleg Lesota, George Zerveas, Daniel Cohen, Carsten Eickhoff, Markus Schedl, Navid Rekabsaz
Bias Mitigation Large Pre Trained Language Model

January 27, 2023

Probing Out-of-Distribution Robustness of Language Models with Parameter-Efficient Transfer Learning
Hyunsoo Cho, Choonghyun Park, Junyeop Kim, Hyuhng Joon Kim, Kang Min Yoo, Sang-goo Lee
Language Model Large Pre Trained Language Model Parameter Efficient Transfer Learning Parameter Efficient Transfer Distribution Robustness

January 25, 2023

ViDeBERTa: A powerful pre-trained language model for Vietnamese
Cong Dao Tran, Nhut Huy Pham, Anh Nguyen, Truong Son Hy, Tu Vu
Pre Trained Language Model Large Corpus Large Pre Trained Language Model Indonesian Language Vietnamese Language

December 30, 2022

Black-box language model explanation by context length probing
Ondřej Cífka, Antoine Liutkus
Large Language Model Large Pre Trained Language Model Context Length Causal Language Black Box Language Model

December 20, 2022

December 6, 2022

DiSTRICT: Dialogue State Tracking with Retriever Driven In-Context Tuning
Praveen Venkateswaran, Evelyn Duesterwald, Vatche Isahagian
Task Oriented Large Pre Trained Language Model Dialogue State Tracking Dialogue Context Context Tuning Task Specific Retriever

December 4, 2022

Grounded Keys-to-Text Generation: Towards Factual Open-Ended Generation
Faeze Brahman, Baolin Peng, Michel Galley, Sudha Rao, Bill Dolan, Snigdha Chaturvedi, Jianfeng Gao
Large Pre Trained Language Model Data to Text Generation Open Ended Generation Entity Description KG to Text Prompt Based Text to Speech

December 3, 2022

RHO ($\rho$): Reducing Hallucination in Open-domain Dialogues with Knowledge Grounding
Ziwei Ji, Zihan Liu, Nayeon Lee, Tiezheng Yu, Bryan Wilie, Min Zeng, Pascale Fung
Knowledge Graph Dialogue System Content Hallucination Open Domain Large Pre Trained Language Model Multi Hop Reasoning Conversational Response Knowledge Grounding

November 21, 2022

Unsupervised Explanation Generation via Correct Instantiations
Sijie Cheng, Zhiyong Wu, Jiangjie Chen, Zhixing Li, Yang Liu, Lingpeng Kong
Large Pre Trained Language Model Explanation Generation Instantiation Based Dense Annotation Explanation Benchmark

November 3, 2022

Overcoming Barriers to Skill Injection in Language Modeling: Case Study in Arithmetic
Mandar Sharma, Nikhil Muralidhar, Naren Ramakrishnan
Language Model Case Study NLP Field Large Pre Trained Language Model Knowledge Barrier Arithmetic Operation Linguistic Competence General Purpose Language Model