Larger Language Model

Large language models (LLMs) are massive neural networks trained to predict the next word in a sequence, acquiring vast knowledge from massive text corpora. Current research focuses on improving their efficiency and performance, particularly in specialized domains, through techniques like fine-tuning smaller models, data augmentation, and retrieval-augmented generation. These advancements are impacting various fields, including healthcare, finance, and software development, by enabling more efficient and accurate natural language processing tasks, though challenges remain in areas like subjective reasoning and mitigating biases.

Papers

March 31, 2023

A Survey of Large Language Models
Wayne Xin Zhao, Kun Zhou, Junyi Li, Tianyi Tang, Xiaolei Wang, Yupeng Hou, Yingqian Min, Beichen Zhang, Junjie Zhang, Zican Dong, Yifan Du, Chen Yang, Yushuo Chen, Zhipeng Chen, Jinhao Jiang, Ruiyang Ren, Yifan Li, Xinyu Tang, Zikang Liu, Peiyu Liu, Jian-Yun Nie, Ji-Rong Wen
Large Language Model Timely Survey Pre Trained Language Model Larger Language Model

March 7, 2023

Larger language models do in-context learning differently
Jerry Wei, Jason Wei, Yi Tay, Dustin Tran, Albert Webson, Yifeng Lu, Xinyun Chen, Hanxiao Liu, Da Huang, Denny Zhou, Tengyu Ma
Context Learning Context Example Semantic Label Larger Language Model Semantic Prior

February 16, 2023

Do We Still Need Clinical Language Models?
Eric Lehman, Evan Hernandez, Diwakar Mahajan, Jonas Wulff, Micah J. Smith, Zachary Ziegler, Daniel Nadler, Peter Szolovits, Alistair Johnson, Emily Alsentzer
Large Language Model Language Model Larger Language Model Clinical Language Model

February 10, 2023

Distillation of encoder-decoder transformers for sequence labelling
Marco Farina, Duccio Pappadopulo, Anant Gupta, Leslie Huang, Ozan İrsoy, Thamar Solorio
Mutual Distillation Sequence of Sequence Sequence Labeling Larger Language Model Encoder Decoder Transformer Sequence Tagging Hallucination Dataset

February 7, 2023

What do Language Models know about word senses? Zero-Shot WSD with Language Models and Domain Inventories
Oscar Sainz, Oier Lopez de Lacalle, Eneko Agirre, German Rigau
Language Model Cross Domain Textual Entailment Larger Language Model Sense Disambiguation Additional Disambiguation Task Word Sens Word Sense Disambiguation

December 29, 2022

Maximizing Use-Case Specificity through Precision Model Tuning
Pranjali Awasthi, David Recio-Mitter, Yosuke Kyle Sugi
Language Model Large Corpus Information Retrieval Transformer Based Language Model Larger Language Model Balancing Efficiency Parameter Tuning

December 19, 2022

Training Trajectories of Language Models Across Scales
Mengzhou Xia, Mikel Artetxe, Chunting Zhou, Xi Victoria Lin, Ramakanth Pasunuru, Danqi Chen, Luke Zettlemoyer, Ves Stoyanov
Language Model Next Token Prediction Larger Language Model Sequence Generation Ghanaian Musical Scale Training Trajectory

December 18, 2022

Can Retriever-Augmented Language Models Reason? The Blame Game Between the Retriever and the Language Model
Parishad BehnamGhader, Santiago Miret, Siva Reddy
Large Language Model Language Model Larger Language Model Hybrid Retriever Blame Assignment

November 23, 2022

This is the way: designing and compiling LEPISZCZE, a comprehensive NLP benchmark for Polish
Łukasz Augustyniak, Kamil Tagowski, Albert Sawczyn, Denis Janiak, Roman Bartusiak, Adrian Szymczak, Marcin Wątroba, Arkadiusz Janz, Piotr Szymański, Mikołaj Morzy, Tomasz Kajdanowicz, Maciej Piasecki
Large Language Model Language Model Comprehensive Benchmark New Way Larger Language Model Multi Task Benchmark Polish Language Natural Language Processing Benchmark

September 26, 2022

Do ever larger octopi still amplify reporting biases? Evidence from judgments of typical colour
Fangyu Liu, Julian Martin Eisenschlos, Jeremy R. Cole, Nigel Collier
Language Model Large Model Evidence Piece Topic Bias Larger Language Model Human Judgment Color Object Legal Judgment Larger OCTOPUS

July 21, 2022

The Birth of Bias: A case study on the evolution of gender bias in an English language model
Oskar van der Wal, Jaap Jumelet, Katrin Schulz, Willem Zuidema
Language Model Case Study Absolute Stance Bias Gender Bias Specie Evolution Modern Language Model Larger Language Model Input Embeddings

May 22, 2022

Memorization Without Overfitting: Analyzing the Training Dynamics of Large Language Models
Kushal Tirumala, Aram H. Markosyan, Luke Zettlemoyer, Armen Aghajanyan
Large Language Model Model Overfitting Training Dynamic Limited Memorization Larger Language Model Memorization Effect D\'ej\`a Vu Memorization

March 31, 2022

Scaling Language Model Size in Cross-Device Federated Learning
Jae Hun Ro, Theresa Breiner, Lara McConnaughey, Mingqing Chen, Ananda Theertha Suresh, Shankar Kumar, Rajiv Mathews
Language Model Neural Network Larger Language Model Efficient Transfer Learning Cross Device Federated Learning Partial Model Training