Safety Alignment

Safety alignment in large language models (LLMs) focuses on ensuring these powerful systems generate helpful and harmless outputs, mitigating risks from malicious prompts or unintended consequences of fine-tuning. Current research emphasizes developing robust methods for data curation, improving the design of safety mechanisms (including those operating at the decoding stage), and understanding how various factors like model architecture, fine-tuning techniques, and even model personality influence safety. This crucial area of research directly impacts the responsible development and deployment of LLMs, influencing their trustworthiness and societal impact across diverse applications.

Papers

June 9, 2024

How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States
Zhenhong Zhou, Haiyang Yu, Xinghua Zhang, Rongwu Xu, Fei Huang, Yongbin Li
Large Language Model Language Model Jailbreak Attack Alignment Problem LLM Safety Safety Alignment Early Classification Level State

May 29, 2024

One-Shot Safety Alignment for Large Language Models via Optimal Dualization
Xinmeng Huang, Shuo Li, Edgar Dobriban, Osbert Bastani, Hamed Hassani, Dongsheng Ding
Primal Dual Reinforcement Learning From Human Feedback Safety Alignment Dual Optimization

May 28, 2024

Lisa: Lazy Safety Alignment for Large Language Models against Harmful Fine-tuning Attack
Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu
Fine Tuning Safety Alignment Alignment Performance Misalignment State Unstable Convergence

May 27, 2024

Navigating the Safety Landscape: Measuring Risks in Finetuning Large Language Models
ShengYun Peng, Pin-Yu Chen, Matthew Hull, Duen Horng Chau
Large Language Model Risk Sensitive LLM Safety Safety Alignment

May 22, 2024

May 15, 2024

A safety realignment framework via subspace-oriented model fusion for large language models
Xin Yi, Shunfan Zheng, Linlin Wang, Xiaoling Wang, Liang He
Large Language Model Fine Tuning Safety Alignment Model Fusion Safety Fine Tuning Downstream Fine Tuning Difference Subspace

May 13, 2024

PARDEN, Can You Repeat That? Defending against Jailbreaks via Repetition
Ziyang Zhang, Qizhen Zhang, Jakob Foerster
Large Language Model Domain Shift Jailbreak Attack Safety Alignment Self Repetition Jailbreak Detection

March 12, 2024

CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion
Qibing Ren, Chang Gao, Jing Shao, Junchi Yan, Xin Tan, Wai Lam, Lizhuang Ma
Code Completion Safety Alignment Generalization Problem Inherent Vulnerability

February 28, 2024

Keeping LLMs Aligned After Fine-tuning: The Crucial Role of Prompt Templates
Kaifeng Lyu, Haoyu Zhao, Xinran Gu, Dingli Yu, Anirudh Goyal, Sanjeev Arora
Fine Tuning Medical LLM Safety Alignment Chat Model Alignment Training Prompt Template

February 22, 2024

Mitigating Fine-tuning based Jailbreak Attack with Backdoor Enhanced Safety Alignment
Jiongxiao Wang, Jiazhao Li, Yiquan Li, Xiangyu Qi, Junjie Hu, Yixuan Li, Patrick McDaniel, Muhao Chen, Bo Li, Chaowei Xiao
Language Model Fine Tuning Backdoor Attack Jailbreak Attack Safety Alignment Fine Tuned LLM

February 19, 2024

February 14, 2024

Soft Prompt Threats: Attacking Safety Alignment and Unlearning in Open-Source LLMs through the Embedding Space
Leo Schwinn, David Dobre, Sophie Xhonneux, Gauthier Gidel, Stephan Gunnemann
Adversarial Robustness Deep Space Harmful Unlearning LLM Generated Open Source LLM Threat Model Safety Alignment Soft Prompt Closed Source Model Language Space

February 7, 2024

Assessing the Brittleness of Safety Alignment via Pruning and Low-Rank Modifications
Boyi Wei, Kaixuan Huang, Yangsibo Huang, Tinghao Xie, Xiangyu Qi, Mengzhou Xia, Prateek Mittal, Mengdi Wang, Peter Henderson
Large Language Model Fine Tuning Edge Pruning Safety Guarantee Safety Alignment Brittle Fracture

December 12, 2023

Safety Alignment in NLP Tasks: Weakly Aligned Summarization as an In-Context Attack
Yu Fu, Yufei Li, Wen Xiao, Cong Liu, Yue Dong
Large Language Model NLP Task Safety Alignment Context Injection

November 9, 2023

FigStep: Jailbreaking Large Vision-language Models via Typographic Visual Prompts
Yichen Gong, Delong Ran, Jinyuan Liu, Conglei Wang, Tianshuo Cong, Anyu Wang, Sisi Duan, Xiaoyun Wang
Large Vision Language Model Generated Content Visual Prompt Cross Over Step Safety Alignment Artificial Intelligence Safety

October 5, 2023

Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!
Xiangyu Qi, Yi Zeng, Tinghao Xie, Pin-Yu Chen, Ruoxi Jia, Prateek Mittal, Peter Henderson
Fine Tuning User Base Safety Alignment

July 10, 2023

BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset
Jiaming Ji, Mickel Liu, Juntao Dai, Xuehai Pan, Chi Zhang, Ce Bian, Chi Zhang, Ruiyang Sun, Yizhou Wang, Yaodong Yang
Large Language Model Medical LLM Human Preference Safety Alignment Food Dataset

Safety Alignment

Papers

How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States

One-Shot Safety Alignment for Large Language Models via Optimal Dualization

Lisa: Lazy Safety Alignment for Large Language Models against Harmful Fine-tuning Attack

Navigating the Safety Landscape: Measuring Risks in Finetuning Large Language Models

Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching

Safety Alignment for Vision Language Models

A safety realignment framework via subspace-oriented model fusion for large language models

PARDEN, Can You Repeat That? Defending against Jailbreaks via Repetition

CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion

Keeping LLMs Aligned After Fine-tuning: The Crucial Role of Prompt Templates

Mitigating Fine-tuning based Jailbreak Attack with Backdoor Enhanced Safety Alignment

Emulated Disalignment: Safety Alignment for Large Language Models May Backfire!

Language Models are Homer Simpson! Safety Re-Alignment of Fine-tuned Language Models through Task Arithmetic

Soft Prompt Threats: Attacking Safety Alignment and Unlearning in Open-Source LLMs through the Embedding Space

Assessing the Brittleness of Safety Alignment via Pruning and Low-Rank Modifications

Safety Alignment in NLP Tasks: Weakly Aligned Summarization as an In-Context Attack

FigStep: Jailbreaking Large Vision-language Models via Typographic Visual Prompts

Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!

BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset