LLM a a Judge AI Research Papers - Page 3

October 3, 2024

Better Instruction-Following Through Minimum Bayes Risk
Ian Wu, Patrick Fernandes, Amanda Bertsch, Seungone Kim, Sina Pakazad, Graham Neubig
Greedy Decoding Reference Free Evaluation Minimum Bayes Risk Multi Reference LLM Based Programming Assistant LLM a a Judge
Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge
Jiayi Ye, Yanbo Wang, Yue Huang, Dongping Chen, Qihui Zhang, Nuno Moniz, Tian Gao, Werner Geyer, Chao Huang, Pin-Yu Chen, Nitesh V Chawla+1
LLM a a Judge Vision Science JUSTICE Absolute Stance Bias Quantifying Bias Bias Measurement
Beyond correlation: The Impact of Human Uncertainty in Measuring the Effectiveness of Automatic Evaluation and LLM-as-a-Judge
Aparna Elangovan, Lei Xu, Jongwoo Ko, Mahsa Elyasi, Ling Liu, Sravan Bodapati, Dan Roth
Total Correlation LLM a a Judge Human Uncertainty Label Uncertainty Automatic Evaluation

September 23, 2024

Style Outweighs Substance: Failure Modes of LLM Judges in Alignment Benchmarking
Benjamin Feuer, Micah Goldblum, Teresa Datta, Sanjana Nambiar, Raz Besaleli, Samuel Dooley, Max Cembalest, John P. Dickerson
LLM a a Judge Failure Mode Style Consistency LLM Benchmark Implicit Bias Pairwise Preference Preference Optimization

September 6, 2024

From Calculation to Adjudication: Examining LLM judges on Mathematical Reasoning Tasks
Andreas Stephan, Dawei Zhu, Matthias Aßenmacher, Xiaoyu Shen, Benjamin Roth
Mathematical Reasoning Task Different Calculation Method Candidate Retrieval LLM a a Judge Multi Step Reasoning Large Language Model

August 23, 2024

Systematic Evaluation of LLM-as-a-Judge in LLM Alignment Tasks: Explainable Metrics and Diverse Prompt Templates
Hui Wei, Shenghua He, Tian Xia, Fei Liu, Andy Wong, Jingyang Lin, Mei Han
Explainable Metric Large Language Model LLM Alignment Evaluation Metric Prompt Template LLM a a Judge Alignment Approach Commercial Large Language Model

August 16, 2024

August 7, 2024

Decoding Biases: Automated Methods and LLM Judges for Gender Bias Detection in Language Models
Shachi H Kumar, Saurav Sahay, Sahisnu Mazumder, Eda Okur, Ramesh Manuvinakurike, Nicole Beckage, Hsuan Su, Hung-yi Lee, Lama Nachman
Language Model Topic Bias Bias Metric Adversarial Prompt LLM a a Judge

July 28, 2024

Meta-Rewarding Language Models: Self-Improving Alignment with LLM-as-a-Meta-Judge
Tianhao Wu, Weizhe Yuan, Olga Golovneva, Jing Xu, Yuandong Tian, Jiantao Jiao, Jason Weston, Sainbayar Sukhbaatar
Iterative Training Self Improving Language Reward LLM a a Judge Self Alignment

July 25, 2024

Trust or Escalate: LLM Judges with Provable Guarantees for Human Agreement
Jaehun Jung, Faeze Brahman, Yejin Choi
Provable Guarantee Human Agreement LLM Based Evaluation Appropriate Trust LLM a a Judge Pairwise Comparison Model Evaluation

July 24, 2024

T⁵Score: A Methodology for Automatically Assessing the Quality of LLM Generated Multi-Document Topic Sets
Itamar Trainin, Omri Abend
Multi Document Summarization Annotation Strategy COVID 19 Severity Global Evaluation LLM a a Judge Reference Free LLM Based Evaluation

June 18, 2024

Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges
Aman Singh Thakur, Kartik Choudhary, Venkat Srinik Ramayapally, Sankaran Vaidyanathan, Dieuwke Hupkes
Security Vulnerability Expert Tax Judge Reader Model Evaluating Alignment Large Language Model LLM a a Judge

June 17, 2024

Can LLM be a Personalized Judge?
Yijiang River Dong, Tiancheng Hu, Nigel Collier
LLM a a Judge Medical LLM Uncertainty Estimation Task LLM Personalization

April 30, 2024

Creative Beam Search: LLM-as-a-Judge For Improving Response Generation
Giorgio Franceschelli, Mirco Musolesi
Beam Search LLM a a Judge Response Generation Computational Creativity

April 1, 2024

LLM-RadJudge: Achieving Radiologist-Level Evaluation for X-Ray Report Generation
Zilong Wang, Xufang Luo, Xinyang Jiang, Dongsheng Li, Lili Qiu
Chest X Ray Report Generation LLM a a Judge Radiology Report Generation Artificial Intelligence Novel Evaluation Radiology Report Radiologist Annotation

March 26, 2024

Optimization-based Prompt Injection Attack to LLM-as-a-Judge
Jiawen Shi, Zenghui Yuan, Yinuo Liu, Yue Huang, Pan Zhou, Lichao Sun, Neil Zhenqiang Gong
LLM a a Judge Prompt Injection Attack Adversarial Pattern

March 14, 2024

CodeUltraFeedback: An LLM-as-a-Judge Dataset for Aligning Large Language Models to Coding Preferences
Martin Weyssow, Aton Kamanda, Xin Zhou, Houari Sahraoui
Preference Fine Tuning Code Recommendation User Preference Model Alignment LLM a a Judge

February 7, 2024

MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark
Dongping Chen, Ruoxi Chen, Shilin Zhang, Yinuo Liu, Yaochen Wang, Huichi Zhou, Qihui Zhang, Yao Wan, Pan Zhou, Lichao Sun
MLLM Training LLM a a Judge Vision Language Benchmark Multimodal Benchmark Multimodal Large Language Model

November 30, 2023

AlignBench: Benchmarking Chinese Alignment of Large Language Models
Xiao Liu, Xuanyu Lei, Shengyuan Wang, Yue Huang, Zhuoer Feng, Bosi Wen, Jiale Cheng, Pei Ke, Yifan Xu, Weng Lam Tam, Xiaohan Zhang+7
Multi Task Benchmark Chinese Alignment LLM a a Judge

LLM a a Judge

Papers - Page 3

Better Instruction-Following Through Minimum Bayes Risk

Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge

Beyond correlation: The Impact of Human Uncertainty in Measuring the Effectiveness of Automatic Evaluation and LLM-as-a-Judge

Style Outweighs Substance: Failure Modes of LLM Judges in Alignment Benchmarking

From Calculation to Adjudication: Examining LLM judges on Mathematical Reasoning Tasks

Systematic Evaluation of LLM-as-a-Judge in LLM Alignment Tasks: Explainable Metrics and Diverse Prompt Templates

Constructing Domain-Specific Evaluation Sets for LLM-as-a-judge

Evaluating the Evaluator: Measuring LLMs' Adherence to Task Evaluation Instructions

Decoding Biases: Automated Methods and LLM Judges for Gender Bias Detection in Language Models

Meta-Rewarding Language Models: Self-Improving Alignment with LLM-as-a-Meta-Judge

Trust or Escalate: LLM Judges with Provable Guarantees for Human Agreement

T⁵Score: A Methodology for Automatically Assessing the Quality of LLM Generated Multi-Document Topic Sets

Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges

Can LLM be a Personalized Judge?

Creative Beam Search: LLM-as-a-Judge For Improving Response Generation

LLM-RadJudge: Achieving Radiologist-Level Evaluation for X-Ray Report Generation

Optimization-based Prompt Injection Attack to LLM-as-a-Judge

CodeUltraFeedback: An LLM-as-a-Judge Dataset for Aligning Large Language Models to Coding Preferences

MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark

AlignBench: Benchmarking Chinese Alignment of Large Language Models