Code Generation Benchmark

Code generation benchmarks evaluate the ability of large language models (LLMs) to produce functional code from natural language descriptions. Current research focuses on creating more comprehensive and realistic benchmarks that address limitations in existing datasets, such as language bias, task complexity, and alignment with real-world software development practices; this includes exploring multi-lingual capabilities and incorporating aspects like test-driven development and object-oriented programming. These benchmarks are crucial for objectively assessing LLM performance, identifying areas for improvement in model architectures and training methodologies, and ultimately advancing the field of automated code generation. Improved benchmarks will lead to more robust and reliable LLMs for practical software development applications.

Papers

March 6, 2024

Quantifying Contamination in Evaluating Code Generation Capabilities of Language Models
Martin Riddell, Ansong Ni, Arman Cohan
Language Model Code Generation Data Contamination Code Generation Benchmark Inaccurate Contamination Ratio

February 21, 2024

Test-Driven Development for Code Generation
Noble Saji Mathews, Meiyappan Nagappan
Code Generation Code Generation Benchmark Driven Development

January 28, 2024

PPM: Automated Generation of Diverse Programming Problems for Benchmarking Code Generation Models
Simin Chen, Xiaoning Feng, Xiaohong Han, Cong Liu, Wei Yang
Automatic Generation Code Generation Model Code Generation Benchmark Complex Program

January 12, 2024

OOP: Object-Oriented Programming Evaluation Benchmark for Large Language Models
Shuai Wang, Liang Ding, Li Shen, Yong Luo, Bo Du, Dacheng Tao
Code Generation Code Generation Benchmark Code Benchmark Object Oriented Object Model

January 11, 2024

Mutation-based Consistency Testing for Evaluating the Code Understanding Capability of LLMs
Ziyu Li, Donghwan Shin
Large Language Model Code Generation Code Generation Benchmark Code Change Code Pair Consistency Test

December 25, 2023

Instruction Fusion: Advancing Prompt Evolution through Hybridization
Weidong Guo, Jiuding Yang, Kaitong Yang, Xiangyang Li, Zhuwei Rao, Yu Xu, Di Niu
Code Generation Code Generation Task Code Generation Benchmark Prompt Evolution

November 29, 2023

Self-Infilling Code Generation
Lin Zheng, Jianbo Yuan, Zhi Zhang, Hongxia Yang, Lingpeng Kong
Code Generation Benchmark Decoding Method Auto Regressive Decoding

August 3, 2023

ClassEval: A Manually-Crafted Benchmark for Evaluating LLMs on Class-level Code Generation
Xueying Du, Mingwei Liu, Kaixin Wang, Hanlin Wang, Junwei Liu, Yixuan Chen, Jiayi Feng, Chaofeng Sha, Xin Peng, Yiling Lou
New Benchmark Medical LLM Code Generation True Class Code Generation Benchmark

June 14, 2023

WizardCoder: Empowering Code Large Language Models with Evol-Instruct
Ziyang Luo, Can Xu, Pu Zhao, Qingfeng Sun, Xiubo Geng, Wenxiang Hu, Chongyang Tao, Jing Ma, Qingwei Lin, Daxin Jiang
Large Language Model Real World Code Instruction Fine Tuning Code Generation Benchmark

June 2, 2023

Do Large Language Models Pay Similar Attention Like Human Programmers When Generating Code?
Bonan Kou, Shengmai Chen, Zhijie Wang, Lei Ma, Tianyi Zhang
Code Generation Attention Pattern Code Generation Benchmark Human Programmer Code Generator User Attention

April 11, 2023

Teaching Large Language Models to Self-Debug
Xinyun Chen, Maxwell Lin, Nathanael Schärli, Denny Zhou
Code Generation Code Debugging Code Generation Benchmark

November 18, 2022

DS-1000: A Natural and Reliable Benchmark for Data Science Code Generation
Yuhang Lai, Chengxi Li, Yiming Wang, Tianyi Zhang, Ruiqi Zhong, Luke Zettlemoyer, Scott Wen-tau Yih, Daniel Fried, Sida Wang, Tao Yu
New Benchmark Benchmark Study Automatic Evaluation API Usage Code Generation Benchmark Big Data Problem Data Science Code Generation

August 17, 2022

MultiPL-E: A Scalable and Extensible Approach to Benchmarking Neural Code Generation
Federico Cassano, John Gouwar, Daniel Nguyen, Sydney Nguyen, Luna Phipps-Costin, Donald Pinckney, Ming-Ho Yee, Yangtian Zi, Carolyn Jane Anderson, Molly Q Feldman, Arjun Guha, Michael Greenberg, Abhinav Jangda
Code Generation Code Generation Benchmark Extensible Framework

August 11, 2022

Interactive Code Generation via Test-Driven User-Intent Formalization
Shuvendu K. Lahiri, Sarah Fakhoury, Aaditya Naik, Georgios Sakkas, Saikat Chakraborty, Madanlal Musuvathi, Piali Choudhury, Curtis von Veh, Jeevana Priya Inala, Chenglong Wang, Jianfeng Gao
OpenAI Codex User Intent Code Generation Benchmark Informal Language