G Eval

G-Eval, and related evaluation frameworks, address the critical need for robust and reliable methods to assess the performance of large language models (LLMs). Current research focuses on developing comprehensive benchmarks that evaluate LLMs across diverse tasks and domains, including safety, mathematical reasoning, and multilingual capabilities, often employing LLMs themselves as evaluators or incorporating hierarchical criteria decomposition. These advancements are crucial for improving LLM development, fostering fairer comparisons between models, and ensuring the responsible deployment of these powerful technologies in various applications.

Papers

September 28, 2023

GInX-Eval: Towards In-Distribution Evaluation of Graph Neural Network Explanations
Kenza Amara, Mennatallah El-Assady, Rex Ying
Ground Truth Explainability Method G Eval Graph Explainability Distribution Input Explainable Graph Graph Neural Network Explanation

August 9, 2023

Evaluating the Generation Capabilities of Large Chinese Language Models
Hui Zeng, Jingyuan Xue, Meng Hao, Chen Sun, Bin Ning, Na Zhang
Text Generation Evaluation Framework G Eval Generative Capability Chinese Large Language Model Generation Capability

July 20, 2023

L-Eval: Instituting Standardized Evaluation for Long Context Language Models
Chenxin An, Shansan Gong, Ming Zhong, Xingjian Zhao, Mukai Li, Jun Zhang, Lingpeng Kong, Xipeng Qiu
Large Language Model Context Length Long Context Language G Eval Query Response Pair

May 15, 2023

C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models
Yuzhen Huang, Yuzhuo Bai, Zhihao Zhu, Junlei Zhang, Jinghan Zhang, Tangjun Su, Junteng Liu, Chuancheng Lv, Yikai Zhang, Jiayi Lei, Yao Fu, Maosong Sun, Junxian He
Large Language Model Foundation Model Comprehensive Evaluation G Eval Natural Language Processing Benchmark

March 29, 2023

G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment
Yang Liu, Dan Iter, Yichong Xu, Shuohang Wang, Ruochen Xu, Chenguang Zhu
Large Language Model Language Generation GPT 4 Natural Language Generation LLM Evaluator G Eval LLM Generated Text Human Alignment

December 20, 2022

IndicMT Eval: A Dataset to Meta-Evaluate Machine Translation metrics for Indian Languages
Ananya B. Sai, Vignesh Nagarajan, Tanay Dixit, Raj Dabre, Anoop Kunchukuttan, Pratyush Kumar, Mitesh M. Khapra
Fine Grained Data Set Machine Translation Indian Language High Resource Language G Eval Meta Evaluation Annotator Rating

December 15, 2022

TeTIm-Eval: a novel curated evaluation data set for comparing text-to-image models
Federico A. Galatolo, Mario G. C. A. Cimino, Edoardo Cogotti
Text to Image Model Human Evaluation Long Form Novel Novel Evaluation G Eval CLIP Score Evaluation Data

November 27, 2022

EPIK: Eliminating multi-model Pipelines with Knowledge-distillation
Bhavesh Laddagiri, Yash Raj, Anshuman Dash
Multiple Model G Eval Machine Transliteration

November 3, 2022

H_eval: A new hybrid evaluation metric for automatic speech recognition tasks
Zitha Sasindran, Harsha Yelchuri, T. V. Prabhakar, Supreeth Rao
Automatic Speech Recognition Evaluation Metric Automatic Speech Recognition System Word Error Rate G Eval

October 25, 2022

FineD-Eval: Fine-grained Automatic Dialogue-Level Evaluation
Chen Zhang, Luis Fernando D'Haro, Qiquan Zhang, Thomas Friedrichs, Haizhou Li
Fine Grained Evaluation Metric Open Domain Dialogue Dialogue Evaluation Dialogue Benchmark G Eval Dialogue Quality

October 12, 2022

PriMeSRL-Eval: A Practical Quality Metric for Semantic Role Labeling Systems Evaluation
Ishan Jindal, Alexandre Rademaker, Khoi-Nguyen Tran, Huaiyu Zhu, Hiroshi Kanayama, Marina Danilevsky, Yunyao Li
Semantic Role Labeling G Eval Quality Metric Predicate Argument Structure Argument Classification

June 9, 2022

XAudit : A Theoretical Look at Auditing with Explanations
Chhavi Yadav, Michal Moshkovitz, Kamalika Chaudhuri
Line by Line Explanation Decision Tree Counterfactual Explanation Theoretical Analysis Model Explanation Audit Evidence G Eval Explanation Algorithm