Evaluation Method

Evaluating the performance of increasingly complex AI models, particularly large language models (LLMs) and other generative AI systems, is a critical and evolving field of research. Current efforts focus on developing more robust and comprehensive evaluation methods that move beyond simple accuracy metrics, incorporating human judgment, system-centric and user-centric factors, and addressing biases and limitations in existing benchmarks. These improved evaluation techniques are essential for ensuring the reliability, fairness, and responsible deployment of AI systems across diverse applications, ultimately shaping the future of AI development and its societal impact.

Papers

August 24, 2023

GPTEval: A Survey on Assessments of ChatGPT and GPT-4
Rui Mao, Guanyi Chen, Xulang Zhang, Frank Guerin, Erik Cambria
Large Language Model Timely Survey ChatGPT Generated Conversation GPT 4 Direct Assessment Reasoning Ability Evaluation Method

August 8, 2023

AgentSims: An Open-Source Sandbox for Large Language Model Evaluation
Jiaju Lin, Haoran Zhao, Aochi Zhang, Yiting Wu, Huqiuyue Ping, Qin Chen
Large Language Model Language Model Evaluation Method Evaluation Task Agent Simulation Sandbox Environment

July 29, 2023

RoCar: A Relationship Network-based Evaluation Method for Large Language Models
Ming Wang, Wenfang Wu, Chongyun Gao, Daling Wang, Shi Feng, Yifei Zhang
Large Language Model Human Relationship Evaluation Method Evaluation Task Task Graph

July 28, 2023

The Road to Quality is Paved with Good Revisions: A Detailed Evaluation Methodology for Revision Policies in Incremental Sequence Labelling
Brielen Madureira, Patrick Kahardipraja, David Schlangen
Transformer Based Quality Issue Evaluation Method Dialogue Model Revision Process Desirable Reasoning Revision Incremental Sequence

July 26, 2023

A New Perspective on Evaluation Methods for Explainable Artificial Intelligence (XAI)
Timo Speith, Markus Langer
Artificial Intelligence High Explainability Explainable Artificial Intelligence xAI Community New Perspective Evaluation Method Requirement Engineering

July 11, 2023

A Deep Dive into Perturbations as Evaluation Technique for Time Series XAI
Udo Schlegel, Daniel A. Keim
Inherent Interpretability Explainable Artificial Intelligence XAI Method Interpretable Machine Learning Evaluation Method Additive Perturbation Deep Dive

June 1, 2023

Rethinking Model Evaluation as Narrowing the Socio-Technical Gap
Q. Vera Liao, Ziang Xiao
Large Language Model Model Evaluation Evaluation Method NLG Evaluation Socio Technical Sociotechnical Gap

May 23, 2023

An Empirical Study on Information Extraction using Large Language Models
Ridong Han, Chaohao Yang, Tao Peng, Prayag Tiwari, Xiang Wan, Lu Liu, Benyou Wang
Large Language Model Native Robustness General Analysis ChatGPT Generated Conversation Information Extraction Evaluation Method Implicit Target Span Soft Matching

May 18, 2023

Recent Trends in Unsupervised Summarization
Mohammad Khosravani, Amine Trabelsi
Recent Trend Evaluation Method Hybrid Model Current Method Unsupervised Extractive Summarization Unsupervised Training

May 15, 2023

Evaluation Strategy of Time-series Anomaly Detection with Decay Function
Yongwan Gim, Kyushik Min
Evaluation Method Time Series Anomaly Detection Novel Evaluation Decay Function Dynamic Point

May 14, 2023

A Survey of Federated Evaluation in Federated Learning
Behnaz Soltani, Yipeng Zhou, Venus Haghighi, John C. S. Lui
Timely Survey Global Evaluation Model Evaluation Evaluation Method Traditional Machine Learning

May 12, 2023

MedGPTEval: A Dataset and Benchmark to Evaluate Responses of Large Language Models in Medicine
Jie Xu, Lu Lu, Sen Yang, Bilin Liang, Xinwei Peng, Jiali Pang, Jinru Ding, Xiaoming Shi, Lingrui Yang, Huan Song, Kang Li, Xin Sun, Shaoting Zhang
Data Set Chatbot Response Non Negative Textual Response Evaluation Method Medical Datasets

April 13, 2023

Computational modeling of semantic change
Nina Tahmasebi, Haim Dubossarsky
Large Corpus Computational Model Evaluation Method Semantic Change Computational Analysis

March 2, 2023

Helpful, Misleading or Confusing: How Humans Perceive Fundamental Building Blocks of Artificial Intelligence Explanations
Edward Small, Yueqing Xuan, Danula Hettiachchi, Kacper Sokol
High Explainability Real Human Explainable Artificial Intelligence Evaluation Method Building Block

February 1, 2023

Uncertain Quality-Diversity: Evaluation methodology and new methods for Quality-Diversity in Uncertain Domains
Manon Flageat, Antoine Cully
New Method Quality Diversity Evaluation Method Uncertain Domain

January 31, 2023

Large Music Recommendation Studies for Small Teams
Kyle Robinson, Dan Brown
Global Evaluation Evaluation Method Music Recommendation Industry Academia Collaboration

November 1, 2022

A Bayesian Learning, Greedy agglomerative clustering approach and evaluation techniques for Author Name Disambiguation Problem
Shashwat Sourav
Constructive Approach Evaluation Method Bayesian Learning Multiple Authorship Additional Disambiguation Task Author Name Greedy SLIM Name Disambiguation

October 19, 2022

Comparison of Varied 2D Mapping Approaches by Using Practice-Oriented Evaluation Criteria
Justin Ziegenbein, Manuel Schrick, Marko Thiel, Johannes Hinckeldeyn, Jochen Kreutzfeldt
Consistent Comparison Simultaneous Localization Evaluation Method Mapping Approach Terrestrial Laser Mobile Robot Localization

August 16, 2022

How Should We Evaluate Synthesized Environmental Sounds
Yuki Okamoto, Keisuke Imoto, Shinnosuke Takamichi, Takahiro Fukumori, Yoichi Yamashita
Evaluation Method Synthesized Sound Environmental Sound Synthesis

June 2, 2022

Artificial Open World for Evaluating AGI: a Conceptual Design
Bowen Xu, Quansheng Ren
Open World Artificial General Intelligence Evaluation Method Conceptual Design Strong Ai Synthetic Reality