Code Benchmark

Code benchmarks are standardized evaluations assessing the code generation and reasoning capabilities of large language models (LLMs). Current research focuses on creating more comprehensive benchmarks that address limitations in existing datasets, such as language bias, task diversity, and the evaluation of code efficiency and robustness beyond simple functional correctness. These efforts involve developing automated benchmark construction pipelines and novel evaluation metrics, often incorporating execution-based verification and multi-dimensional assessments. Improved benchmarks are crucial for advancing LLM development and ensuring the reliability of AI-generated code in real-world applications.

Papers

December 30, 2024

Open-Book Neural Algorithmic Reasoning
Hefei Li, Chao Peng, Chenyang Xu, Zhengfeng Yang
Attention Mechanism Reasoning Benchmark Neural Algorithmic Reasoning Code Benchmark

December 6, 2024

Evaluating and Aligning CodeLLMs on Human Preference
Jian Yang, Jiaxi Yang, Ke Jin, Yibo Miao, Lei Zhang, Liqun Yang, Zeyu Cui, Yichang Zhang, Binyuan Hui, Junyang Lin
Human Preference Code Benchmark Synthetic Instruction Data

December 2, 2024

Addressing Data Leakage in HumanEval Using Combinatorial Test Design
Jeremy S. Bradbury, Riddhi More
LLM Based Code Benchmark Benchmark Task

November 20, 2024

October 2, 2024

Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion?
Zhenyu Pan, Rongyu Cao, Yongchang Cao, Yingwei Ma, Binhua Li, Fei Huang, Han Liu, Yongbin Li
Medical LLM Code Generation Code Completion Code Benchmark

August 23, 2024

August 20, 2024

To Code, or Not To Code? Exploring Impact of Code in Pre-training
Viraat Aryabumi, Yixuan Su, Raymond Ma, Adrien Morisot, Ivan Zhang, Acyr Locatelli, Marzieh Fadaee, Ahmet Üstün, Sara Hooker
Global Impact Code Generation Real World Code Code Quality Code Data Code Benchmark Code Efficiency

July 18, 2024

July 4, 2024

Narrow Transformer: StarCoder-Based Java-LM For Desktop
Kamalkumar Rathinasamy, Balaji A J, Ankush Kumar, Gagan Gayari, Harshini K, Rajab Ali Mondal, Sreenivasa Raghavan K S, Swayam Singh, Mohammed Rafee Tarafdar
Code Language Model Digital Computer Code Model Code Benchmark Large Code Model

June 14, 2024

Unlock the Correlation between Supervised Fine-Tuning and Reinforcement Learning in Training Code Large Language Models
Jie Chen, Xintian Han, Yu Ma, Xun Zhou, Liang Xiang
Large Language Model Reinforcement Learning Fine Tuning Code Generation Supervised Fine Tuning Total Correlation Unlocking Insight Code Benchmark

June 11, 2024

LLAMAFUZZ: Large Language Model Enhanced Greybox Fuzzing
Hongxiang Zhang, Yuyang Rong, Yifeng He, Hao Chen
Fuzz Testing Code Benchmark Code Change Purple LLaMA CyberSecEval

June 10, 2024

Can AI Beat Undergraduates in Entry-level Java Assignments? Benchmarking Large Language Models on JavaBench
Jialun Cao, Zhiyong Chen, Jiarong Wu, Shing-chi Cheung, Chang Xu
Artificial Intelligence New Benchmark Code Generation Benchmark Introductory Programming Code Benchmark Benchmark Function Java Programming Undergraduate Student

April 30, 2024

CodeHalu: Investigating Code Hallucinations in LLMs via Execution-based Verification
Yuchen Tian, Weixiang Yan, Qian Yang, Xuandong Zhao, Qian Chen, Wen Wang, Ziyang Luo, Lei Ma, Dawn Song
Large Language Model Code Generation Code Benchmark Code Hallucination

March 28, 2024

Top Leaderboard Ranking = Top Coding Proficiency, Always? EvoEval: Evolving Coding Benchmarks via LLM
Chunqiu Steven Xia, Yinlin Deng, Lingming Zhang
New Benchmark Medical LLM Code Generation Program Synthesis Comprehensive Benchmark Code Benchmark Leaderboard Extraction Program Synthesis Benchmark

March 25, 2024

Reasoning Runtime Behavior of a Program with LLM: How Far Are We?
Junkai Chen, Zhiyuan Pan, Xing Hu, Zhenhao Li, Ge Li, Xin Xia
Code Benchmark Software Behavior

February 20, 2024

Code Needs Comments: Enhancing Code LLMs with Comment Augmentation
Demin Song, Honglin Guo, Yunhua Zhou, Shuhao Xing, Yudong Wang, Zifan Song, Wenwei Zhang, Qipeng Guo, Hang Yan, Xipeng Qiu, Dahua Lin
Large Language Model Real World Code Text Augmentation Online Comment Pre Training Corpus Code Benchmark Language Alignment

February 12, 2024

Mercury: A Code Efficiency Benchmark for Code Large Language Models
Mingzhe Du, Anh Tuan Luu, Bin Ji, Qian Liu, See-Kiong Ng
Large Language Model Code Generation Computational Efficiency Code Benchmark Code Efficiency