Error Vector Assisted Learning

Error vector assisted learning, while not explicitly named as such in the provided abstracts, is implicitly addressed through the evaluation of large language models (LLMs) and their performance across diverse tasks. Current research focuses on developing comprehensive and unbiased benchmarks to assess LLMs' capabilities, including their ability to utilize external tools appropriately, avoid hallucinations, and understand nuanced language in various contexts (e.g., ancient Chinese, K-12 education). These evaluations aim to identify and mitigate shortcomings in model performance, ultimately improving the reliability and safety of LLMs for various applications. The development of robust evaluation frameworks is crucial for advancing LLM research and ensuring responsible deployment.

Papers

July 17, 2024

LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models
Kaichen Zhang, Bo Li, Peiyuan Zhang, Fanyi Pu, Joshua Adrian Cahyono, Kairui Hu, Shuai Liu, Yuanhan Zhang, Jingkang Yang, Chunyuan Li, Ziwei Liu
Language Model Global Evaluation Large Multimodal Model Multimodal Benchmark Large Multi Modal Model Reality Check Error Vector Assisted Learning

July 2, 2024

WTU-EVAL: A Whether-or-Not Tool Usage Evaluation Benchmark for Large Language Models
Kangyun Ning, Yisong Su, Xueqiang Lv, Yuanzhe Zhang, Jian Liu, Kang Liu, Jinan Xu
NLP Task Tool Trajectory Tool Usage Evaluation Benchmark Error Vector Assisted Learning

April 22, 2024

VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models
Haoyi Qiu, Wenbo Hu, Zi-Yi Dou, Nanyun Peng
Large Language Model Large Vision Language Model Benchmark Dataset Content Hallucination Higher Coverage Rate Faithfulness Test Object Hallucination Error Vector Assisted Learning

March 11, 2024

AC-EVAL: Evaluating Ancient Chinese Language Understanding in Large Language Models
Yuting Wei, Yuanxing Xu, Xinru Wei, Simin Yang, Yangfu Zhu, Yuqing Li, Di Liu, Bin Wu
Comprehensive Evaluation Ancient Text Chinese Language Error Vector Assisted Learning

January 29, 2024

E-EVAL: A Comprehensive Chinese K-12 Education Evaluation Benchmark for Large Language Models
Jinchang Hou, Chang Ao, Haihong Wu, Xiangtao Kong, Zhigang Zheng, Daijia Tang, Chengming Li, Xiping Hu, Ruifeng Xu, Shiwen Ni, Min Yang
Large Language Model Error Vector Assisted Learning

November 15, 2023

CLEAN-EVAL: Clean Evaluation on Contaminated Large Language Models
Wenhong Zhu, Hongkun Hao, Zhiwei He, Yunze Song, Yumeng Zhang, Hanxu Hu, Yiran Wei, Rui Wang, Hongyuan Lu
Large Language Model Language Model Fine Tuning Shot Learning G Eval Realistic Evaluation Error Vector Assisted Learning Semantic Detector

August 18, 2023

Red-Teaming Large Language Models using Chain of Utterances for Safety-Alignment
Rishabh Bhardwaj, Soujanya Poria
Side Chain Red Teaming Larger Language Model Conversational Dataset Speech Utterance Next Word Prediction Harmful Data Error Vector Assisted Learning

January 29, 2023

EMP-EVAL: A Framework for Measuring Empathy in Open Domain Dialogues
Bushra Amjad, Muhammad Zeeshan, Mirza Omer Beg
New Framework Human Evaluation Open Domain Cognitive Empathy Emotion Analysis Empathy Detection Error Vector Assisted Learning

December 15, 2022

EVAL: Explainable Video Anomaly Localization
Ashish Singh, Michael J. Jones, Erik Learned-Miller
Deep Network Video Anomaly Detection Video Anomaly Motion Feature General Purpose Representation Error Vector Assisted Learning

Error Vector Assisted Learning

Papers

LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models

WTU-EVAL: A Whether-or-Not Tool Usage Evaluation Benchmark for Large Language Models

VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models

AC-EVAL: Evaluating Ancient Chinese Language Understanding in Large Language Models

E-EVAL: A Comprehensive Chinese K-12 Education Evaluation Benchmark for Large Language Models

CLEAN-EVAL: Clean Evaluation on Contaminated Large Language Models

Red-Teaming Large Language Models using Chain of Utterances for Safety-Alignment

EMP-EVAL: A Framework for Measuring Empathy in Open Domain Dialogues

EVAL: Explainable Video Anomaly Localization