Larger Language Model

Large language models (LLMs) are massive neural networks trained to predict the next word in a sequence, acquiring vast knowledge from massive text corpora. Current research focuses on improving their efficiency and performance, particularly in specialized domains, through techniques like fine-tuning smaller models, data augmentation, and retrieval-augmented generation. These advancements are impacting various fields, including healthcare, finance, and software development, by enabling more efficient and accurate natural language processing tasks, though challenges remain in areas like subjective reasoning and mitigating biases.

Papers

February 29, 2024

On the Scaling Laws of Geographical Representation in Language Models
Nathan Godey, Éric de la Clergerie, Benoît Sagot
Language Model Scaling Law Larger Language Model Geographical Location Representation

February 19, 2024

Surprising Efficacy of Fine-Tuned Transformers for Fact-Checking over Larger Language Models
Vinay Setty
Large Language Model Fine Tuning Fact Checking Larger Language Model Fact Verification Task Veracity Prediction Surprising Effectiveness

February 16, 2024

Smaller Language Models are capable of selecting Instruction-Tuning Training Data for Larger Language Models
Dheeraj Mekala, Alex Nguyen, Jingbo Shang
Language Model Training Data Instruction Tuning Larger Language Model Instruction Tuned Model Smaller Language Model

January 25, 2024

Assessing the Portability of Parameter Matrices Trained by Parameter-Efficient Finetuning Methods
Mohammed Sabry, Anya Belz
Transfer Learning Domain Knowledge Low Rank Task Specific Larger Language Model Task Specific Knowledge Finetuning Method

December 20, 2023

MonoCoder: Domain-Specific Code Language Model for HPC Codes and Tasks
Tal Kadosh, Niranjan Hasabnis, Vy A. Vo, Nadav Schneider, Neva Krien, Mihai Capota, Abdul Wasay, Nesreen Ahmed, Ted Willke, Guy Tamir, Yuval Pinter, Timothy Mattson, Gal Oren
Full Potential New Task High Performance Computing Larger Language Model Code Language Model

December 15, 2023

Vectorizing string entries for data processing on tables: when are larger language models better?
Léo Grinsztajn, Edouard Oyallon, Myung Jun Kim, Gaël Varoquaux
Large Language Model Language Model Table Semantics Larger Language Model Vectorization Method Data Processing Simple Model

October 21, 2023

Small Language Models Fine-tuned to Coordinate Larger Language Models improve Complex Reasoning
Gurusha Juneja, Subhabrata Dutta, Soumen Chakrabarti, Sunny Manchanda, Tanmoy Chakraborty
Language Model Complex Reasoning Multi Step Reasoning Larger Language Model Tuned Lm Prompt Decomposition Problem Decomposition

October 17, 2023

BitNet: Scaling 1-bit Transformers for Large Language Models
Hongyu Wang, Shuming Ma, Li Dong, Shaohan Huang, Huaijie Wang, Lingxiao Ma, Fan Yang, Ruiping Wang, Yi Wu, Furu Wei
Large Language Model Transformer Megatron Decepticons Transformer Architecture Larger Language Model Precision Transformer

September 14, 2023

TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild
Huayang Li, Siheng Li, Deng Cai, Longyue Wang, Lemao Liu, Taro Watanabe, Yujiu Yang, Shuming Shi
Wild Challenge Multimodal Phenomenon Instruction Following Larger Language Model Multimodal Dialogue Multimodal Instruction

August 23, 2023

Bridging the Gap: Deciphering Tabular Data Using Large Language Model
Hengyuan Zhang, Peng Chang, Zongcheng Ji
Large Language Model Natural Language Processing Tabular Data Larger Language Model Table Structure Table Question

August 18, 2023

August 9, 2023

Answering Unseen Questions With Smaller Language Models Using Rationale Generation and Dense Retrieval
Tim Hartill, Diana Benavides-Prado, Michael Witbrock, Patricia J. Riddle
Dense Retrieval Larger Language Model Question Answering Task Smaller Language Model Rationale Generation Unknown Question

July 27, 2023

TransNormerLLM: A Faster and Better Large Language Model with Improved TransNormer
Zhen Qin, Dong Li, Weigao Sun, Weixuan Sun, Xuyang Shen, Xiaodong Han, Yunshen Wei, Baohong Lv, Xiao Luo, Yu Qiao, Yiran Zhong
Large Language Model Attention Based Model Linear Attention Larger Language Model

July 17, 2023

On the application of Large Language Models for language teaching and assessment technology
Andrew Caines, Luca Benedetto, Shiva Taslimipoor, Christopher Davis, Yuan Gao, Oeistein Andersen, Zheng Yuan, Mark Elliott, Russell Moore, Christopher Bryant, Marek Rei, Helen Yannakoudakis, Andrew Mullooly, Diane Nicholls, Paula Buttery
Large Language Model Application Proficiency Text Generation Comprehensive Evaluation Larger Language Model Language Learning AI Driven Language

July 13, 2023

Negated Complementary Commonsense using Large Language Models
Navid Rezaei, Marek Z. Reformat
Large Language Model Larger Language Model Relevant Question Negative Commonsense

June 2, 2023

ChatGPT for Zero-shot Dialogue State Tracking: A Solution or an Opportunity?
Michael Heck, Nurul Lubis, Benjamin Ruppik, Renato Vukovic, Shutong Feng, Christian Geishauser, Hsien-Chin Lin, Carel van Niekerk, Milica Gašić
ChatGPT Generated Conversation Emerging Opportunity Solution Path Dialogue State Tracking Larger Language Model Exploring ChatGPT General Purpose Language Model

May 24, 2023

Emergent inabilities? Inverse scaling over the course of pretraining
James A. Michaelov, Benjamin K. Bergen
Language Model New Benchmark Multiplicative Size Scaling Larger Language Model Emergent Ability Course Specific Context Inverse Scaling

May 8, 2023

Revisiting Relation Extraction in the era of Large Language Models
Somin Wadhwa, Silvio Amir, Byron C. Wallace
NLP Task Relation Extraction New Era Generative Approach Semantic Relation Larger Language Model

May 3, 2023

Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes
Cheng-Yu Hsieh, Chun-Liang Li, Chih-Kuan Yeh, Hootan Nakhost, Yasuhisa Fujii, Alexander Ratner, Ranjay Krishna, Chen-Yu Lee, Tomas Pfister
Large Language Model Training Data Task Specific Larger Language Model Small Model

Larger Language Model

Papers

On the Scaling Laws of Geographical Representation in Language Models

Surprising Efficacy of Fine-Tuned Transformers for Fact-Checking over Larger Language Models

Smaller Language Models are capable of selecting Instruction-Tuning Training Data for Larger Language Models

Assessing the Portability of Parameter Matrices Trained by Parameter-Efficient Finetuning Methods

MonoCoder: Domain-Specific Code Language Model for HPC Codes and Tasks

Vectorizing string entries for data processing on tables: when are larger language models better?

Small Language Models Fine-tuned to Coordinate Larger Language Models improve Complex Reasoning

BitNet: Scaling 1-bit Transformers for Large Language Models

TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild

Bridging the Gap: Deciphering Tabular Data Using Large Language Model

Red-Teaming Large Language Models using Chain of Utterances for Safety-Alignment

Scope is all you need: Transforming LLMs for HPC Code

Answering Unseen Questions With Smaller Language Models Using Rationale Generation and Dense Retrieval

TransNormerLLM: A Faster and Better Large Language Model with Improved TransNormer

On the application of Large Language Models for language teaching and assessment technology

Negated Complementary Commonsense using Large Language Models

ChatGPT for Zero-shot Dialogue State Tracking: A Solution or an Opportunity?

Emergent inabilities? Inverse scaling over the course of pretraining

Revisiting Relation Extraction in the era of Large Language Models

Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes