Code Generation

Code generation research focuses on using large language models (LLMs) to automatically produce functional and secure code from natural language descriptions or other inputs. Current efforts concentrate on improving the accuracy and efficiency of code generation, including developing novel training objectives like horizon-length prediction and employing techniques such as multi-agent frameworks, Monte Carlo Tree Search, and prompt engineering to guide LLMs towards better solutions. This field is significant because it promises to dramatically increase developer productivity and accelerate software development, while also raising important questions about code security and reliability that require further investigation.

Papers

February 28, 2023

EvoPrompting: Language Models for Code-Level Neural Architecture Search
Angelica Chen, David M. Dohan, David R. So
Language Model Neural Architecture Search Code Generation Directed Evolution

February 20, 2023

Learning Deep Semantics for Test Completion
Pengyu Nie, Rahul Banerjee, Junyi Jessy Li, Raymond J. Mooney, Milos Gligoric
Code Generation Level Test Semantic Learning Code Semantics Code Completion Model SYNTAX Score

February 17, 2023

PAC Prediction Sets for Large Language Models of Code
Adam Khakhar, Stephen Mell, Osbert Bastani
Code Generation Real World Code Prediction Set

February 16, 2023

LEVER: Learning to Verify Language-to-Code Generation with Execution
Ansong Ni, Srini Iyer, Dragomir Radev, Ves Stoyanov, Wen-tau Yih, Sida I. Wang, Xi Victoria Lin
Large Language Model Code Generation Natural Language Input Code LLM

February 10, 2023

February 8, 2023

CodeLMSec Benchmark: Systematically Evaluating and Finding Security Vulnerabilities in Black-Box Code Language Models
Hossein Hajipour, Keno Hassler, Thorsten Holz, Lea Schönherr, Mario Fritz
Code Generation Code Language Model Code Generation Model Vulnerable Code Black Box Language Model Web Attack

January 31, 2023

Execution-based Code Generation using Deep Reinforcement Learning
Parshin Shojaee, Aneesh Jain, Sindhu Tipirneni, Chandan K. Reddy
Deep Reinforcement Learning Code Generation Program Synthesis Code Generation Task

January 9, 2023

SantaCoder: don't reach for the stars!
Loubna Ben Allal, Raymond Li, Denis Kocetkov, Chenghao Mou, Christopher Akiki, Carlos Munoz Ferrandis, Niklas Muennighoff, Mayank Mishra, Alex Gu, Manan Dey, Logesh Kumar Umapathi, Carolyn Jane Anderson, Yangtian Zi, Joel Lamy Poirier, Hailey Schoelkopf, Sergey Troshin, Dmitry Abulkhanov, Manuel Romero, Michael Lappert, Francesco De Toni, Bernardo García del Río, Qian Liu, Shamik Bose, Urvashi Bhattacharyya, Terry Yue Zhuo, Ian Yu, Paulo Villegas, Marco Zocca, Sourab Mangrulkar, David Lansky, Huu Nguyen, Danish Contractor, Luis Villa, Jia Li, Dzmitry Bahdanau, Yacine Jernite, Sean Hughes, Daniel Fried, Arjun Guha, Harm de Vries, Leandro von Werra
Code Generation Star Model

December 20, 2022

December 19, 2022

December 2, 2022

Programming Is Hard -- Or at Least It Used to Be: Educational Opportunities And Challenges of AI Code Generation
Brett A. Becker, Paul Denny, James Finnie-Ansley, Andrew Luxton-Reilly, James Prather, Eddie Antonio Santos
Technical Challenge Code Generation Education Domain Programming Assistance Introductory Programming

November 30, 2022

Explicit Knowledge Transfer for Weakly-Supervised Code Generation
Zhangir Azerbayev, Ansong Ni, Hailey Schoelkopf, Dragomir Radev
Large Language Model Knowledge Distillation Code Generation Knowledge Transfer Code Pair

November 29, 2022

Coder Reviewer Reranking for Code Generation
Tianyi Zhang, Tao Yu, Tatsunori B. Hashimoto, Mike Lewis, Wen-tau Yih, Daniel Fried, Sida I. Wang
Language Model Code Generation Code Language Model

November 15, 2022

Evaluating How Fine-tuning on Bimodal Data Effects Code Generation
Gabriel Orlanski, Seonhye Yang, Michael Healy
Fine Tuning Code Generation Real World Code Fine Tuned Model Multimodal Generation

November 2, 2022

October 31, 2022

A Simple, Yet Effective Approach to Finding Biases in Code Generation
Spyridon Mouselinos, Mateusz Malinowski, Henryk Michalewski
Large Language Model Code Generation Topic Bias Effective Approach Adversarial Testing