Direct Preference Optimization

Direct Preference Optimization (DPO) is a machine learning technique aiming to align large language models (LLMs) with human preferences without the need for an intermediary reward model, offering a more efficient alternative to reinforcement learning methods. Current research focuses on improving DPO's robustness and efficiency through techniques like token-level importance sampling, incorporating ordinal preferences, and addressing issues such as overfitting and sensitivity to hyperparameters. These advancements are significant because they enhance the reliability and scalability of aligning LLMs with human values, leading to safer and more beneficial applications of these powerful models.

142papers

Papers - Page 5

October 19, 2024

GDPO: Learning to Directly Align Language Models with Diversity Using GFlowNets
Oh Joon Kwon, Daiki E. Matsunaga, Kee-Eung Kim
Energy Based GFlowNets Preference Alignment Language Model Offline Preference Diversity Awareness Large Language Model Alignment Direct Preference Optimization

October 18, 2024

MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time
Mozhi Zhang, Pengyu Wang, Chenkun Tan, Mianqiu Huang, Dong Zhang, Yaqian Zhou, Xipeng Qiu
Language Model Large Language Model Alignment Alignment Dataset Direct Preference Optimization Inference Time Interest Preference

October 17, 2024

Preference Diffusion for Recommendation
Shuo Liu, An Zhang, Guoqing Hu, Hong Qian, Tat-seng Chua
Recommendation Performance Effective Recommendation Recommender System Direct Preference Optimization Recommendation Task

October 16, 2024

Preference Optimization with Multi-Sample Comparisons
Chaoqi Wang, Zhuokai Zhao, Chen Zhu, Karthik Abinav Sankararaman, Michal Valko, Xuefei Cao, Zhaorun Chen, Madian Khabsa, Yuxin Chen+2
Direct Preference Optimization Preference Optimization Multiple Hypothesis Testing Generative Model

October 14, 2024

α-DPO: Adaptive Reward Margin is What Direct Preference Optimization Needs
Junkang Wu, Xue Wang, Zhengyi Yang, Jiancan Wu, Jinyang Gao, Bolin Ding, Xiang Wang, Rong Jin, Xiangnan He
Preference Optimization Direct Preference Optimization Optimization Purpose Preference Feedback Large Language Model

October 12, 2024

SeRA: Self-Reviewing and Alignment of Large Language Models using Implicit Reward Margins
Jongwoo Ko, Saket Dingliwal, Bhavana Ganesh, Sailik Sengupta, Sravan Bodapati, Aram Galstyan
Direct Preference Optimization Implicit Reward Self Feedback Self Alignment Alignment Algorithm Alignment Problem Reinforcement Learning

October 11, 2024

Unintentional Unalignment: Likelihood Displacement in Direct Preference Optimization
Noam Razin, Sadhika Malladi, Adithya Bhaskar, Danqi Chen, Sanjeev Arora, Boris Hanin
Likelihood Map Misalignment State Direct Preference Optimization Optimization Purpose Preference Feedback Refusal Response Language Model

October 10, 2024

October 8, 2024

Accelerated Preference Optimization for Large Language Model Alignment
Jiafan He, Huizhuo Yuan, Quanquan Gu
Large Language Model Alignment Direct Preference Optimization Preference Optimization

October 7, 2024

As Simple as Fine-tuning: LLM Alignment via Bidirectional Negative Feedback Loss
Xin Mao, Feng-Lin Li, Huimin Xu, Wei Zhang, Wang Chen, Anh Tuan Luu
Preference Optimization LLM Alignment Fine Tuning Semantic Loss Direct Preference Optimization Proximal Policy Optimization

October 6, 2024

October 5, 2024

RainbowPO: A Unified Framework for Combining Improvements in Preference Optimization
Hanyang Zhao, Genta Indra Winata, Anirban Das, Shi-Xiong Zhang, David D. Yao, Wenpin Tang, Sambit Sahu
Preference Optimization Unified Framework Direct Preference Optimization Human Preference

October 2, 2024

October 1, 2024

Beyond Scalar Reward Model: Learning Generative Judge from Preference Data
Ziyi Ye, Xiangsheng Li, Qiuchi Li, Qingyao Ai, Yujia Zhou, Wei Shen, Dong Yan, Yiqun Liu
Self Contrastive Fine Tuned Judge Model Scalar Reward Preference Feedback Preference Pair Direct Preference Optimization

September 29, 2024

The Crucial Role of Samplers in Online Direct Preference Optimization
Ruizhe Shi, Runlong Zhou, Simon S. Du
Convergence Rate Proximal Sampler Language Model Alignment Direct Preference Optimization Sampling Strategy

September 26, 2024

Direct Preference Optimization

Papers - Page 5

GDPO: Learning to Directly Align Language Models with Diversity Using GFlowNets

MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time

Preference Diffusion for Recommendation

Preference Optimization with Multi-Sample Comparisons

α-DPO: Adaptive Reward Margin is What Direct Preference Optimization Needs

SeRA: Self-Reviewing and Alignment of Large Language Models using Implicit Reward Margins

Unintentional Unalignment: Likelihood Displacement in Direct Preference Optimization

TPO: Aligning Large Language Models with Multi-branch & Multi-step Preference Trees

HyperDPO: Conditioned One-Shot Multi-Objective Fine-Tuning Framework

Accelerated Preference Optimization for Large Language Model Alignment

As Simple as Fine-tuning: LLM Alignment via Bidirectional Negative Feedback Loss

TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights

Ordinal Preference Optimization: Aligning Human Preferences via NDCG

RainbowPO: A Unified Framework for Combining Improvements in Preference Optimization

Investigating on RLHF methodology

An Exploration of Self-Supervised Mutual Information Alignment for Multi-Task Settings

Beyond Scalar Reward Model: Learning Generative Judge from Preference Data

The Crucial Role of Samplers in Online Direct Preference Optimization

Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness

Cross-lingual Human-Preference Alignment for Neural Machine Translation with Direct Quality Optimization