Alignment Approach

Alignment approaches in artificial intelligence aim to ensure that artificial intelligence models, particularly large language models, behave in ways consistent with human values and intentions. Current research focuses on developing and evaluating various alignment techniques, including reinforcement learning from human feedback (RLHF), direct preference optimization (DPO), and methods leveraging in-context learning and prompt engineering, often implemented within specific model architectures like mixture-of-experts. These efforts are crucial for mitigating risks associated with misaligned AI and for building trustworthy and beneficial AI systems across diverse applications, from healthcare to conversational agents.

Papers

June 26, 2024

The Multilingual Alignment Prism: Aligning Global and Local Preferences to Reduce Harm
Aakanksha, Arash Ahmadian, Beyza Ermis, Seraphina Goldfarb-Tarrant, Julia Kreutzer, Marzieh Fadaee, Sara Hooker
Alignment Problem World Event Human Preference Potential Harm Safety Alignment Multilingual Scenario Alignment Approach Lingual Alignment

June 20, 2024

Selected Languages are All You Need for Cross-lingual Truthfulness Transfer
Weihao Liu, Ning Wu, Wenbiao Ding, Shining Liang, Ming Gong, Dongmei Zhang
Large Language Model Benchmark Platform Multilingual Large Language Model Multilingual Scenario Multilingual Capability Alignment Approach Cross Lingual Fact

June 3, 2024

Towards Scalable Automated Alignment of LLMs: A Survey
Boxi Cao, Keming Lu, Xinyu Lu, Jiawei Chen, Mengjie Ren, Hao Xiang, Peilin Liu, Yaojie Lu, Ben He, Xianpei Han, Le Sun, Hongyu Lin, Bowen Yu
Large Language Model Timely Survey Alignment Approach Alignment Performance Automatic Alignment

June 2, 2024

Multimodal Deep Learning for Low-Resource Settings: A Vector Embedding Alignment Approach for Healthcare Applications
David Restrepo, Chenwei Wu, Sebastián Andrés Cajas, Luis Filipe Nakayama, Leo Anthony Celi, Diego M López
Low Resource Multimodal Learning X Vector Multimodal Deep Learning Alignment Approach Healthcare Application Multi Modal Deep Learning Vector Embeddings Embedding Based

May 21, 2024

Weakly supervised alignment and registration of MR-CT for cervical cancer radiotherapy
Jjahao Zhang, Yin Gu, Deyu Sun, Yuhua Gao, Ming Gao, Ming Cui, Teng Zhang, He Ma
Alignment Problem Image Registration Pre Registration Alignment Approach Multi Modal Image Tumor Microenvironment Spatial Alignment

May 7, 2024

The Elephant in the Room -- Why AI Safety Demands Diverse Teams
David Rostcheck, Lara Scheibling
Artificial Intelligence Human Ai Collaboration AI Safety Social Science ROOM Layout Alignment Approach Heterogeneous Team Pink Elephant

May 2, 2024

NeMo-Aligner: Scalable Toolkit for Efficient Model Alignment
Gerald Shen, Zhilin Wang, Olivier Delalleau, Jiaqi Zeng, Yi Dong, Daniel Egert, Shengyang Sun, Jimmy Zhang, Sahil Jain, Ali Taghibakhshi, Markel Sanz Ausin, Ashwath Aithal, Oleksii Kuchaiev
Alignment Approach Model Alignment Aligner Model

May 1, 2024

Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment
Zhili Liu, Yunhao Gou, Kai Chen, Lanqing Hong, Jiahui Gao, Fei Mi, Yu Zhang, Zhenguo Li, Xin Jiang, Qun Liu, James T. Kwok
Large Language Model Chain of Thought Top Two Answer Model Synergy Alignment Approach Self Alignment Input Mixture Span Answer

April 9, 2024

Latent Distance Guided Alignment Training for Large Language Models
Haotian Luo
LD Align Alignment Approach Alignment Training Latent Alignment Self Supervised Alignment

March 7, 2024

February 27, 2024

SoFA: Shielded On-the-fly Alignment via Priority Rule Following
Xinyu Lu, Bowen Yu, Yaojie Lu, Hongyu Lin, Haiyang Yu, Le Sun, Xianpei Han, Yongbin Li
Alignment Approach Forced Alignment

February 19, 2024

Reformatted Alignment
Run-Ze Fan, Xuefeng Li, Haoyang Zou, Junlong Li, Shwai He, Ethan Chern, Jiewen Hu, Pengfei Liu
Large Language Model Alignment Problem Human Annotation Data Quality Alignment Approach

February 15, 2024

VisIRNet: Deep Image Alignment for UAV-taken Visible and Infrared Image Pairs
Sedat Ozer, Alain P. Ndigande
Convolutional Neural Network Image Pair UAV Image Alignment Approach Corner Detection

February 4, 2024

Aligner: Efficient Alignment by Learning to Correct
Jiaming Ji, Boyuan Chen, Hantao Lou, Donghai Hong, Borong Zhang, Xuehai Pan, Juntao Dai, Tianyi Qiu, Yaodong Yang
Large Language Model LeArning Abstract Alignment Approach Alignment Model Aligner Model Agnostic Alignment

November 22, 2023

Covariance alignment: from maximum likelihood estimation to Gromov-Wasserstein
Yanjun Han, Philippe Rigollet, George Stepaniants
Maximum Likelihood Feature Alignment Alignment Approach Covariance Alignment

November 7, 2023

October 16, 2023

Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake Analysis
Kai Chen, Chunwei Wang, Kuo Yang, Jianhua Han, Lanqing Hong, Fei Mi, Hang Xu, Zhengying Liu, Wenyong Huang, Zhenguo Li, Dit-Yan Yeung, Lifeng Shang, Xin Jiang, Qun Liu
Large Language Model Alignment Approach Leg Failure Deriving Wisdom Instruction Response Pair

September 26, 2023

Large Language Model Alignment: A Survey
Tianhao Shen, Renren Jin, Yufei Huang, Chuang Liu, Weilong Dong, Zishan Guo, Xinwei Wu, Yan Liu, Deyi Xiong
Large Language Model Timely Survey AI Alignment Alignment Approach Large Language Model Alignment