Robust Evaluation

Robust evaluation in machine learning focuses on developing reliable and unbiased methods for assessing model performance, particularly in the face of adversarial attacks, dataset shifts, and inherent biases. Current research emphasizes creating more comprehensive evaluation frameworks, often incorporating techniques like ranking-based assessments, visualization tools for data analysis, and the use of large language models (LLMs) as both evaluators and subjects of evaluation. These advancements are crucial for ensuring the trustworthiness and fairness of AI systems across diverse applications, ranging from medical diagnosis to ocean forecasting and question answering, ultimately improving the reliability and safety of AI deployments.

Papers

April 7, 2024

Quantifying AI Vulnerabilities: A Synthesis of Complexity, Dynamical Systems, and Game Theory
B Kereopa-Yorke
Dynamical System Complexity Matter Critical Synthesis Game Theory Robust Evaluation Artificial Intelligence Security Robust Strategy AI Vulnerability

March 27, 2024

CheckEval: Robust Evaluation Framework using Large Language Model via Checklist
Yukyung Lee, Joonghoon Kim, Jaehee Kim, Hyowon Cho, Pilsung Kang
Large Language Model LLM Based Evaluation Novel Evaluation Robust Evaluation Assessment Checklist Inter Annotator

February 29, 2024

Functional Benchmarks for Robust Evaluation of Reasoning Performance, and the Reasoning Gap
Saurabh Srivastava, Annarose M B, Anto P, Shashank Menon, Ajay Sukumar, Adwaith Samod T, Alan Philipose, Stevin Prince, Sooraj Thomas
Reasoning Capability Reasoning Performance Robust Evaluation Benchmark Function Math Benchmark Reasoning Gap

February 16, 2024

Humans or LLMs as the Judge? A Study on Judgement Biases
Guiming Hardy Chen, Shunian Chen, Ziche Liu, Feng Jiang, Benyou Wang
Large Language Model Medical LLM Study Feature Real Human Robust Evaluation Systematic Bias Expert Tax Judge

January 21, 2024

Robust Evaluation Measures for Evaluating Social Biases in Masked Language Models
Yang Liu
Language Model Social Bias Masked Language Distributional Assumption Stereotypical Bias Robust Evaluation Pseudo Likelihood

January 11, 2024

REBUS: A Robust Evaluation Benchmark of Understanding Symbols
Andrew Gritsevskiy, Arjun Panickssery, Aaron Kirtland, Derik Kauffman, Hans Gundlach, Irina Gritsevskaya, Joe Cavanagh, Jonathan Chiang, Lydia La Roux, Michelle Hung
Multimodal Large Language Model Human Cognition Robust Evaluation Symbol Detection Multimodal Evaluation Pun Generation Rebus Solving Capability

August 8, 2023

A Comprehensive Assessment Benchmark for Rigorously Evaluating Deep Learning Image Classifiers
Michael W. Spratling
Native Robustness System Performance Comprehensive Evaluation Robustness Evaluation Robust Evaluation Deep Learning Classifier Benchmark Score Robust Machine Learning Lack Thereof State of the Art Robustness

May 21, 2023

Evaluating the Performance of Large Language Models on GAOKAO Benchmark
Xiaotian Zhang, Chunyang Li, Yi Zong, Zhengyu Ying, Liang He, Xipeng Qiu
Large Language Model System Performance Natural Language Processing Task Robust Evaluation Chinese Benchmark

March 16, 2023

Robust Evaluation of Diffusion-Based Adversarial Purification
Minjong Lee, Dongwoo Kim
Adversarial Attack White Box Robust Evaluation Diffusion Purification

December 15, 2022

Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation
Yixin Liu, Alexander R. Fabbri, Pengfei Liu, Yilun Zhao, Linyong Nan, Ruilin Han, Simeng Han, Shafiq Joty, Chien-Sheng Wu, Caiming Xiong, Dragomir Radev
Summarization System Robust Evaluation Summarization Evaluation Abstractive Summarisation

December 12, 2022

Evaluation of Synthetic Datasets for Conversational Recommender Systems
Harsh Lara, Manoj Tiwari
Large Language Model Generative Model Training Data Synthetic Data Global Evaluation Robust Evaluation

October 13, 2022

CORL: Research-oriented Deep Offline Reinforcement Learning Library
Denis Tarasov, Alexander Nikulin, Dmitry Akimov, Vladislav Kurenkov, Sergey Kolesnikov
Robust Evaluation Offline Deep Reinforcement Learning Offline to Online Reinforcement Learning CLEVR X Dataset

September 18, 2022

Towards Robust Off-Policy Evaluation via Human Inputs
Harvineet Singh, Shalmali Joshi, Finale Doshi-Velez, Himabindu Lakkaraju
Policy Evaluation Natural Language Input Dataset Shift Robust Evaluation

August 15, 2022

MENLI: Robust Evaluation Metrics from Natural Language Inference
Yanran Chen, Steffen Eger
Adversarial Attack Text Generation Natural Language Inference Robust Evaluation

July 12, 2022

TabSynDex: A Universal Metric for Robust Evaluation of Synthetic Tabular Data
Vikram S Chundawat, Ayush K Tarun, Murari Mandal, Mukund Lahoti, Pratik Narang
Synthetic Data Tabular Data Synthetic Tabular Data Robust Evaluation Synthetic Tabular Data Generation

June 24, 2022

On the Importance of Application-Grounded Experimental Design for Evaluating Explainable ML Methods
Kasun Amarasinghe, Kit T. Rodolfa, Sérgio Jesus, Valerie Chen, Vladimir Balayan, Pedro Saleiro, Pedro Bizarro, Ameet Talwalkar, Rayid Ghani
Machine Learning Importance Aware Experimental Design Explainable Machine Learning Robust Evaluation

November 27, 2021

A Two-Stage Feature Selection Approach for Robust Evaluation of Treatment Effects in High-Dimensional Observational Data
Md Saiful Islam, Sahil Shikalgar, Md. Noor-E-Alam
High Dimensional Causal Inference Feature Selection Treatment Effect Robust Evaluation Randomized Controlled Trial Elastic Net Robust Causal