Preference Alignment

Preference alignment in large language models (LLMs) focuses on aligning model outputs with human preferences, improving helpfulness, harmlessness, and overall quality. Current research emphasizes techniques like Direct Preference Optimization (DPO) and its variants, often incorporating token-level weighting or importance sampling to enhance efficiency and address issues like update regression. This field is crucial for responsible LLM deployment, impacting various applications from translation and text-to-speech to healthcare and robotics by ensuring models generate outputs that align with human values and expectations.

Papers

June 17, 2024

mDPO: Conditional Preference Optimization for Multimodal Large Language Models
Fei Wang, Wenxuan Zhou, James Y. Huang, Nan Xu, Sheng Zhang, Hoifung Poon, Muhao Chen
Large Language Model Multimodal Large Language Model Direct Preference Optimization Preference Optimization Preference Alignment Direct Preference

June 11, 2024

Personalized Product Assortment with Real-time 3D Perception and Bayesian Payoff Estimation
Porter Jenkins, Michael Selander, J. Stockton Jenkins, Andrew Merrill, Kyle Armstrong
Estimation Task 3D Perception Preference Alignment Personalized Image Assortment Optimization Heterogeneous Preference

June 10, 2024

Margin-aware Preference Optimization for Aligning Diffusion Models without Reference
Jiwoo Hong, Sayak Paul, Noah Lee, Kashif Rasul, James Thorne, Jongheon Jeong
Diffusion Model Text to Image Diffusion Model Preference Optimization Higher Quality Reference Preference Alignment Preference Pair

June 8, 2024

Online DPO: Online Direct Preference Optimization with Fast-Slow Chasing
Biqing Qi, Pengfei Li, Fangyuan Li, Junqi Gao, Kaiyan Zhang, Bowen Zhou
Direct Preference Optimization Preference Alignment User Preference Continual Training Pursuit Strategy

June 7, 2024

A Deep Dive into the Trade-Offs of Parameter-Efficient Preference Alignment Techniques
Megh Thakkar, Quentin Fournier, Matthew D Riemer, Pin-Yu Chen, Amal Zouaq, Payel Das, Sarath Chandar
Large Language Model Preference Alignment LLM Alignment Deep Dive Preference Fine Tuning Alignment Dataset

May 30, 2024

Preference Alignment with Flow Matching
Minu Kim, Yongsik Lee, Sehyeok Kang, Jihwan Oh, Song Chong, Se-Young Yun
Reward Model Flow Matching Preference Alignment Preference Based Reinforcement Learning Implicit Reward

May 22, 2024

LIRE: listwise reward enhancement for preference alignment
Mingye Zhu, Yi Liu, Lei Zhang, Junbo Guo, Zhendong Mao
Preference Alignment Proxy Reward Pairwise Approach

May 21, 2024

SPO: Multi-Dimensional Preference Sequential Alignment With Implicit Reward Modeling
Xingzhou Lou, Junge Zhang, Jian Xie, Lifeng Liu, Dong Yan, Kaiqi Huang
Language Model Reward Model Preference Optimization Preference Alignment Implicit Reward Direct Preference

April 16, 2024

Self-Supervised Visual Preference Alignment
Ke Zhu, Liang Zhao, Zheng Ge, Xiangyu Zhang
Vision Language Model Direct Preference Optimization Preference Alignment Multi Modal Benchmark

April 7, 2024

April 5, 2024

ROPO: Robust Preference Optimization for Large Language Models
Xize Liang, Chao Chen, Shuang Qiu, Jie Wang, Yue Wu, Zhihang Fu, Zhihao Shi, Feng Wu, Jieping Ye
Preference Alignment Robust Loss Robust Preference Noise Aware Training

March 25, 2024

MetaAligner: Towards Generalizable Multi-Objective Alignment of Language Models
Kailai Yang, Zhiwei Liu, Qianqian Xie, Jimin Huang, Tianlin Zhang, Sophia Ananiadou
Language Model Preference Alignment Multi Objective Alignment

March 12, 2024

ORPO: Monolithic Preference Optimization without Reference Model
Jiwoo Hong, Noah Lee, James Thorne
Preference Optimization Preference Alignment Preference Fine Tuning Reference Model

February 28, 2024

Arithmetic Control of LLMs for Diverse User Preferences: Directional Preference Alignment with Multi-Objective Rewards
Haoxiang Wang, Yong Lin, Wei Xiong, Rui Yang, Shizhe Diao, Shuang Qiu, Han Zhao, Tong Zhang
Large Language Model Direct Preference Optimization Preference Alignment Multi Objective Reward Diverse User

February 22, 2024

Generalizing Reward Modeling for Out-of-Distribution Preference Learning
Chen Jia
Reward Function Reward Model Policy Learning Preference Feedback Preference Learning Preference Alignment

February 16, 2024

Multi-modal Preference Alignment Remedies Degradation of Visual Instruction Tuning on Language Models
Shengzhi Li, Rongyu Lin, Shichao Pei
Language Model Visual Question Answering Multi Modal Large Language Model Preference Alignment Visual Instruction Tuning Instruction Datasets Alignment Distillation

February 13, 2024

January 12, 2024

MAPO: Advancing Multilingual Reasoning through Multilingual Alignment-as-Preference Optimization
Shuaijie She, Wei Zou, Shujian Huang, Wenhao Zhu, Xiang Liu, Xiang Geng, Jiajun Chen
Direct Preference Optimization Reasoning Ability Preference Alignment Consistent Reasoning Multilingual Reasoning

Preference Alignment

Papers

mDPO: Conditional Preference Optimization for Multimodal Large Language Models

Personalized Product Assortment with Real-time 3D Perception and Bayesian Payoff Estimation

Margin-aware Preference Optimization for Aligning Diffusion Models without Reference

Online DPO: Online Direct Preference Optimization with Fast-Slow Chasing

A Deep Dive into the Trade-Offs of Parameter-Efficient Preference Alignment Techniques

Preference Alignment with Flow Matching

LIRE: listwise reward enhancement for preference alignment

SPO: Multi-Dimensional Preference Sequential Alignment With Implicit Reward Modeling

Self-Supervised Visual Preference Alignment

Regularized Conditional Diffusion Model for Multi-Task Preference Alignment

EnQuery: Ensemble Policies for Diverse Query-Generation in Preference Alignment of Robot Navigation

ROPO: Robust Preference Optimization for Large Language Models

MetaAligner: Towards Generalizable Multi-Objective Alignment of Language Models

ORPO: Monolithic Preference Optimization without Reference Model

Arithmetic Control of LLMs for Diverse User Preferences: Directional Preference Alignment with Multi-Objective Rewards

Generalizing Reward Modeling for Out-of-Distribution Preference Learning

Multi-modal Preference Alignment Remedies Degradation of Visual Instruction Tuning on Language Models

InstructGraph: Boosting Large Language Models via Graph-centric Instruction Tuning and Preference Alignment

A Dense Reward View on Aligning Text-to-Image Diffusion with Preference

MAPO: Advancing Multilingual Reasoning through Multilingual Alignment-as-Preference Optimization