Alignment Breaking Attack

Alignment breaking attacks target the safety mechanisms built into large language models (LLMs), aiming to elicit harmful or inappropriate outputs. Current research focuses on developing increasingly sophisticated attack methods, including those leveraging obscure prompts, visual inputs, backdoor injections, and minimal data "shadow alignment" to bypass existing safety protocols, with a particular focus on multimodal models. These attacks highlight significant vulnerabilities in current LLM alignment techniques and underscore the need for more robust and resilient safety measures to ensure responsible AI development and deployment.

Papers

June 19, 2024

ObscurePrompt: Jailbreaking Large Language Models via Obscure Input
Yue Huang, Jingyu Tang, Dongping Chen, Bingda Tang, Yao Wan, Lichao Sun, Xiangliang Zhang
Natural Language Black Box Large Language Model Ambiguous Input Alignment Breaking Attack

March 14, 2024

Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models
Yifan Li, Hangyu Guo, Kun Zhou, Wayne Xin Zhao, Ji-Rong Wen
Multimodal Large Language Model Jailbreak Attack Alignment Problem Alignment Breaking Attack Harmlessness Alignment Physical Inter Rule Vulnerability

November 15, 2023

Stealthy and Persistent Unalignment on Large Language Models via Backdoor Injections
Yuanpu Cao, Bochuan Cao, Jinghui Chen
Digital STEALTH Metric Backdoor Injection Misalignment State Alignment Breaking Attack

October 4, 2023

Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models
Xianjun Yang, Xiao Wang, Qi Zhang, Linda Petzold, William Yang Wang, Xun Zhao, Dahua Lin
Large Language Model AI Safety Prompt Attack Shadow Generation Word Level Attack Aligned Model Alignment Breaking Attack

September 18, 2023

Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM
Bochuan Cao, Yuanpu Cao, Lu Lin, Jinghui Chen
Open Source Large Language Model New Attack LLM Alignment Alignment Breaking Attack

Alignment Breaking Attack

Papers

ObscurePrompt: Jailbreaking Large Language Models via Obscure Input

Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models

Stealthy and Persistent Unalignment on Large Language Models via Backdoor Injections

Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models

Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM