LLM Alignment

LLM alignment focuses on aligning large language models' behavior with human values and preferences, aiming to mitigate harmful outputs like biases, misinformation, and unsafe instructions. Current research emphasizes developing more efficient and robust alignment techniques, including methods like Direct Preference Optimization (DPO) and Proximal Policy Optimization (PPO), often incorporating personalized preferences and addressing the unreliability of human feedback. This field is crucial for ensuring the safe and beneficial deployment of LLMs, impacting both the development of more trustworthy AI systems and the broader societal implications of advanced language technologies.

Papers

April 16, 2024

Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study
Shusheng Xu, Wei Fu, Jiaxuan Gao, Wenjie Ye, Weilin Liu, Zhiyu Mei, Guangju Wang, Chao Yu, Yi Wu
Reinforcement Learning Proximal Policy Optimization Direct Preference Optimization Comprehensive Study Policy Optimization Actor Critic Algorithm LLM Alignment Reward Free

April 3, 2024

ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline
Yifan Xu, Xiao Liu, Xinghan Liu, Zhenyu Hou, Yueyan Li, Xiaohan Zhang, Zihan Wang, Aohan Zeng, Zhengxiao Du, Wenyi Zhao, Jie Tang, Yuxiao Dong
Large Language Model LLM Alignment Mathematical Problem Solving Self Critique Pipeline

March 27, 2024

IterAlign: Iterative Constitutional Alignment of Large Language Models
Xiusi Chen, Hongzhi Wen, Sreyashi Nag, Chen Luo, Qingyu Yin, Ruirui Li, Zheng Li, Wei Wang
Large Language Model LLM Alignment Constitutional AI

March 18, 2024

Supervised Fine-Tuning as Inverse Reinforcement Learning
Hao Sun
Imitation Learning Inverse Reinforcement Learning Supervised Fine Tuning LLM Alignment Demonstration Data

March 14, 2024

Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation
Yunhao Gou, Kai Chen, Zhili Liu, Lanqing Hong, Hang Xu, Zhenguo Li, Dit-Yan Yeung, James T. Kwok, Yu Zhang
Multimodal Large Language Model Multimodal LLM Human SAFETY LLM Alignment Character Transformation Model Safety

February 27, 2024

Consistency Matters: Explore LLMs Consistency From a Black-Box Perspective
Fufangchen Zhao, Guoqiang Jin, Jiaheng Huang, Rui Zhao, Fei Tan
Black Box Strong Consistency Open Source LLM LLM Alignment LightGBM Model NLG Metric

February 22, 2024

Unintended Impacts of LLM Alignment on Global Representation
Michael J. Ryan, William Held, Diyi Yang
Direct Preference Optimization Human Preference LLM Alignment User Preference Global Representation

February 21, 2024

KorNAT: LLM Alignment Benchmark for Korean Social Values and Common Knowledge
Jiyoung Lee, Minwoo Kim, Seungho Kim, Junghwan Kim, Seunghyun Won, Hwaran Lee, Edward Choi
Value Alignment LLM Alignment Knowledge Alignment New Knowledge Cultural Value

February 14, 2024

February 12, 2024

Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts
Yueqin Yin, Zhendong Wang, Yi Gu, Hai Huang, Weizhu Chen, Mingyuan Zhou
Large Language Model Direct Preference Optimization Preference Optimization Non Negative Textual Response LLM Alignment Diverse Prompt

January 19, 2024

Knowledge Verification to Nip Hallucination in the Bud
Fanqi Wan, Xinting Huang, Leyang Cui, Xiaojun Quan, Wei Bi, Shuming Shi
Large Language Model LLM Alignment Visual Hallucination Knowledge Alignment

January 6, 2024

Human-Instruction-Free LLM Self-Alignment with Limited Samples
Hongyi Guo, Yuanshun Yao, Wei Shen, Jiaheng Wei, Xiaoying Zhang, Zhaoran Wang, Yang Liu
Large Language Model Domain Adaptive LLM Alignment Limited Sample

December 22, 2023

Reasons to Reject? Aligning Language Models with Judgments
Weiwen Xu, Deng Cai, Zhisong Zhang, Wai Lam, Shuming Shi
Large Language Model Language Model Contrastive Learning Reason Giving LLM Alignment Legal Judgment Language Feedback

December 12, 2023

On Diversified Preferences of Large Language Model Alignment
Dun Zeng, Yong Dai, Pengyu Cheng, Longyue Wang, Tianhao Hu, Wanshun Chen, Nan Du, Zenglin Xu
Large Language Model Human Preference Preference Alignment LLM Alignment Large Language Model Alignment

November 28, 2023

CDEval: A Benchmark for Measuring the Cultural Dimensions of Large Language Models
Yuhang Wang, Yanxu Zhu, Chao Kong, Shuyu Wei, Xiaoyuan Yi, Xing Xie, Jitao Sang
New Benchmark LLM Alignment Cultural Dimension

November 13, 2023

On Measuring Faithfulness or Self-consistency of Natural Language Explanations
Letitia Parcalabescu, Anette Frank
Natural Language Explanation Model Explanation Self Consistency LLM Alignment Faithfulness Test SHAP Clustering

October 25, 2023

Zephyr: Direct Distillation of LM Alignment
Lewis Tunstall, Edward Beeching, Nathan Lambert, Nazneen Rajani, Kashif Rasul, Younes Belkada, Shengyi Huang, Leandro von Werra, Clémentine Fourrier, Nathan Habib, Nathan Sarrazin, Omar Sanseviero, Alexander M. Rush, Thomas Wolf
Language Model Supervised Fine Tuning LLM Alignment Chat Model Conversational Search Benchmark

October 20, 2023

She had Cobalt Blue Eyes: Prompt Testing to Create Aligned and Sustainable Language Models
Veronica Chatrath, Oluwanifemi Bamgbose, Shaina Raza
Large Language Model LLM Alignment LLM Output

September 30, 2023

Pairwise Proximal Policy Optimization: Harnessing Relative Feedback for LLM Alignment
Tianhao Wu, Banghua Zhu, Ruoyu Zhang, Zhaojin Wen, Kannan Ramchandran, Jiantao Jiao
Reinforcement Learning Proximal Policy Optimization Trajectory Optimization LLM Alignment External Feedback