Modern Language Model

Modern language models (LLMs) are large neural networks trained on massive text datasets to generate human-like text and perform various language tasks. Current research focuses on improving their efficiency (e.g., through MixAttention architectures), reliability (e.g., via improved hallucination detection and knowledge editing), and understanding their learning mechanisms (e.g., exploring the role of in-context learning and the relationship between attention and Markov models). These advancements are significant because LLMs are transforming fields like natural language processing, impacting applications ranging from improved search engines and chatbots to aiding scientific research and clinical practice.

Papers

June 13, 2024

Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback
Hamish Ivison, Yizhong Wang, Jiacheng Liu, Zeqiu Wu, Valentina Pyatkin, Nathan Lambert, Noah A. Smith, Yejin Choi, Hannaneh Hajishirzi
Preference Feedback Best Practice Modern Language Model Preference Dataset PPO Algorithm

May 9, 2024

DOLOMITES: Domain-Specific Long-Form Methodical Tasks
Chaitanya Malaviya, Priyanka Agrawal, Kuzman Ganchev, Pranesh Srinivasan, Fantine Huot, Jonathan Berant, Mark Yatskar, Dipanjan Das, Mirella Lapata, Chris Alberti
Modern Language Model Task Specification Long Context Task Long Form Generation Writing Path

April 29, 2024

Analyzing Semantic Change through Lexical Replacements
Francesco Periti, Pierluigi Cassotti, Haim Dubossarsky, Nina Tahmasebi
Modern Language Model Semantic Change Semantic Change Detection Lexical Substitution

April 3, 2024

An Incomplete Loop: Instruction Inference, Instruction Following, and In-context Learning in Language Models
Emmy Liu, Graham Neubig, Jacob Andreas
Natural Language Modern Language Model Shot Prompting Deductive Reasoning Learning Mechanism Inductive Task Abductive Learning Instruction Induction

March 22, 2024

February 21, 2024

From Self-Attention to Markov Models: Unveiling the Dynamics of Generative Transformers
M. Emrullah Ildiz, Yixiao Huang, Yingcong Li, Ankit Singh Rawat, Samet Oymak
Text Generation Self Attention Modern Language Model Generative Transformer

February 6, 2024

Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks
Jongho Park, Jaeseung Park, Zheyang Xiong, Nayoung Lee, Jaewoong Cho, Samet Oymak, Kangwook Lee, Dimitris Papailiopoulos
Language Model Context Learning Comparative Study Transformer Model Mamba in Mamba Modern Language Model

January 31, 2024

How Useful is Continued Pre-Training for Generative Unsupervised Domain Adaptation?
Rheeya Uppaal, Yixuan Li, Junjie Hu
Domain Adaptation Pre Training Generative Language Model Modern Language Model Domain Invariance

December 28, 2023

Learning to Generate Text in Arbitrary Writing Styles
Aleem Khan, Andrew Wang, Sophia Hager, Nicholas Andrews
Language Model LeArning Abstract Text Modality Modern Language Model Writing Style Arbitrary Style

December 10, 2023

Beyond Gradient and Priors in Privacy Attacks: Leveraging Pooler Layer Inputs of Language Models in Federated Learning
Jianwei Li, Sheng Liu, Qi Lei
Large Language Model Language Model Natural Gradient PRIvacy Leakage Privacy Attack Modern Language Model Pooling Layer

December 7, 2023

November 16, 2023

LLMs as Narcissistic Evaluators: When Ego Inflates Evaluation Scores
Yiqi Liu, Nafise Sadat Moosavi, Chenghua Lin
Medical LLM Evaluation Metric Modern Language Model LLM Based Metric Generative Evaluation

November 3, 2023

SAC3: Reliable Hallucination Detection in Black-Box Language Models via Semantic-aware Cross-check Consistency
Jiaxin Zhang, Zhuohang Li, Kamalika Das, Bradley A. Malin, Sricharan Kumar
Hallucination Detection Modern Language Model Semantic Consistency Black Box Language Model Cross Model

October 24, 2023

Generative Language Models Exhibit Social Identity Biases
Tiancheng Hu, Yara Kyrychenko, Steve Rathje, Nigel Collier, Sander van der Linden, Jon Roozenbeek
Large Language Model Language Model Social Bias Modern Language Model

October 23, 2023

Meaning Representations from Trajectories in Autoregressive Models
Tian Yu Liu, Matthew Trager, Alessandro Achille, Pramuditha Perera, Luca Zancato, Stefano Soatto
Autoregressive Model Handwritten Trajectory Autoregressive Language Model Modern Language Model Distributional Learning Meaning Representation Distributional Perspective

October 3, 2023

Self-Taught Optimizer (STOP): Recursively Self-Improving Code Generation
Eric Zelikman, Eliana Lorch, Lester Mackey, Adam Tauman Kalai
Language Model Code Generation Modern Language Model Learned Optimizers Self Improvement Stop or Go Decision

September 14, 2023

Anchor Points: Benchmarking Models with Much Fewer Examples
Rajan Vivek, Kawin Ethayarajh, Diyi Yang, Douwe Kiela
Language Model Full Model Fewer Example Ranking Model Modern Language Model Model Confidence

August 25, 2023

Rethinking Language Models as Symbolic Knowledge Graphs
Vishwas Mruthyunjaya, Pouya Pezeshkpour, Estevam Hruschka, Nikita Bhutani
Language Model Knowledge Graph Modern Language Model Symbolic Knowledge