Harmlessness Alignment

Harmlessness alignment in large language models (LLMs) focuses on ensuring these models generate safe and ethical outputs, avoiding harmful biases, misinformation, and malicious uses. Current research investigates vulnerabilities, particularly in multimodal models where image inputs can be exploited to circumvent safety mechanisms, and explores methods like reinforcement learning and inference-time alignment techniques to improve model behavior. This work is crucial for mitigating the risks associated with increasingly powerful LLMs and ensuring their responsible deployment in various applications.

Papers

June 4, 2024

Dishonesty in Helpful and Harmless Alignment
Youcheng Huang, Jingkun Tang, Duanyu Feng, Zheng Zhang, Wenqiang Lei, Jiancheng Lv, Anthony G. Cohn
Large Language Model Reinforcement Learning Harmlessness Alignment

March 14, 2024

Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models
Yifan Li, Hangyu Guo, Kun Zhou, Wayne Xin Zhao, Ji-Rong Wen
Multimodal Large Language Model Jailbreak Attack Alignment Problem Alignment Breaking Attack Harmlessness Alignment Physical Inter Rule Vulnerability

January 20, 2024

InferAligner: Inference-Time Alignment for Harmlessness through Cross-Model Guidance
Pengyu Wang, Dong Zhang, Linyang Li, Chenkun Tan, Xinghao Wang, Ke Ren, Botian Jiang, Xipeng Qiu
Large Language Model Alignment Problem Temporal Alignment Model Safety Training Time Harmlessness Alignment Model Guidance

November 30, 2023

FFT: Towards Harmlessness Evaluation and Analysis for LLMs with Factuality, Fairness, Toxicity
Shiyao Cui, Zhenyu Zhang, Yilong Chen, Wenyuan Zhang, Tianyun Liu, Siqi Wang, Tingwen Liu
Large Language Model General Analysis Language Generation Generative Artificial Intelligence Generative Language Model AI Generated Text Factual Claim Fast Fourier Transform Harmlessness Alignment

Harmlessness Alignment

Papers

Dishonesty in Helpful and Harmless Alignment

Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models

InferAligner: Inference-Time Alignment for Harmlessness through Cross-Model Guidance

FFT: Towards Harmlessness Evaluation and Analysis for LLMs with Factuality, Fairness, Toxicity