LLM Behavior

Research on Large Language Model (LLM) behavior focuses on understanding and controlling their outputs, particularly concerning safety and reliability. Current efforts involve developing methods to interpret LLM decision-making processes, such as through meta-models analyzing internal activations, and improving control mechanisms like activation steering and prompt baking to mitigate harmful or undesirable behaviors. These investigations are crucial for building trustworthy and beneficial LLMs, addressing concerns about replicability in evaluation methodologies and the need for robust techniques to ensure responsible deployment in various applications.

Papers

February 27, 2024

LLMGuard: Guarding Against Unsafe LLM Behavior
Shubh Goyal, Medha Hira, Shubham Mishra, Sukriti Goyal, Arnav Goel, Niharika Dadu, Kirushikesh DB, Sameep Mehta, Nishtha Madaan
Large Language Model LLM Behavior User Interaction LLM Assisted Decision Making

February 12, 2024

Suppressing Pink Elephants with Direct Principle Feedback
Louis Castricato, Nathan Lile, Suraj Anand, Hailey Schoelkopf, Siddharth Verma, Stella Biderman
Language Model LLM Behavior Pink Elephant Feedback System Constitutional AI Fine Tuned Llama

February 9, 2024

Feedback Loops With Language Models Drive In-Context Reward Hacking
Alexander Pan, Erik Jones, Meena Jagadeesan, Jacob Steinhardt
Language Model Feedback Loop LLM Behavior Language Reward Feedback Effect

February 2, 2024

(A)I Am Not a Lawyer, But...: Engaging Legal Experts towards Responsible LLM Policies for Legal Advice
Inyoung Cheong, King Xia, K. J. Kevin Feng, Quan Ze Chen, Amy X. Zhang
LLM Generated Multiple Choice Question Case Based Reasoning LLM Behavior LLM Policy Legal Education Legal Article

January 31, 2024

LLM Voting: Human Choices and AI Collective Decision Making
Joshua C. Yang, Damian Dailisan, Marcin Korecki, Carina I. Hausladen, Dirk Helbing
Decision Making Voter Participation LLM Behavior

December 1, 2023

Deciphering Digital Detectives: Understanding LLM Behaviors and Capabilities in Multi-Agent Mystery Games
Dekun Wu, Haochen Shi, Zhiyuan Sun, Bang Liu
Artificial Intelligence Multi Agent Capability Evolution Complex Scene Artificial Intelligence Agent Superficial Clue Model Based Agent LLM Behavior

April 2, 2023

Eight Things to Know about Large Language Models
Samuel R. Bowman
Large Language Model Meaningful Representation Good Thing LLM Performance LLM Behavior

February 7, 2022

Red Teaming Language Models with Language Models
Ethan Perez, Saffron Huang, Francis Song, Trevor Cai, Roman Ring, John Aslanides, Amelia Glaese, Nat McAleese, Geoffrey Irving
Language Model Chatbot Response Red Teaming LLM Behavior LLM Based Chatbot