Code Generation

Code generation research focuses on using large language models (LLMs) to automatically produce functional and secure code from natural language descriptions or other inputs. Current efforts concentrate on improving the accuracy and efficiency of code generation, including developing novel training objectives like horizon-length prediction and employing techniques such as multi-agent frameworks, Monte Carlo Tree Search, and prompt engineering to guide LLMs towards better solutions. This field is significant because it promises to dramatically increase developer productivity and accelerate software development, while also raising important questions about code security and reliability that require further investigation.

Papers

September 25, 2024

CodeInsight: A Curated Dataset of Practical Coding Solutions from Stack Overflow
Nathanaël Beau, Benoît Crabbé
Data Set Code Generation Novel Dataset Code Snippet Stack Overflow Unit Test

September 24, 2024

September 23, 2024

AutoAPIEval: A Framework for Automated Evaluation of LLMs in API-Oriented Code Generation
Yixi Wu, Pengfei He, Zehao Wang, Shaowei Wang, Yuan Tian, Tse-Hsun (Peter)Chen
Large Language Model New Framework Code Generation Code Quality

September 20, 2024

September 19, 2024

September 18, 2024

Combining LLM Code Generation with Formal Specifications and Reactive Program Synthesis
William Murphy, Nikolaus Holzer, Feitong Qiao, Leyi Cui, Raven Rothkopf, Nathan Koenig, Mark Santolucito
Code Generation Program Synthesis Code Generation Task Formal Specification Reactive Behavior

September 16, 2024

AutoSafeCoder: A Multi-Agent Framework for Securing LLM Code Generation through Static Analysis and Fuzz Testing
Ana Nunez, Nafis Tanveer Islam, Sumit Kumar Jha, Peyman Najafirad
Multi Agent Code Generation Multi Agent Framework Fuzz Testing Static Analysis Vulnerable Code Automatic Coding Code Vulnerability LLM Driven Agent

September 15, 2024

RethinkMCTS: Refining Erroneous Thoughts in Monte Carlo Tree Search for Code Generation
Qingyao Li, Wei Xia, Kounianhua Du, Xinyi Dai, Ruiming Tang, Yasheng Wang, Yong Yu, Weinan Zhang
Code Generation Monte Carlo Tree Search Fine Grained Feedback

September 13, 2024

B4: Towards Optimal Assessment of Plausible Code Solutions with Plausible Tests
Mouxiang Chen, Zhongxin Liu, He Tao, Yusu Hong, David Lo, Xin Xia, Jianling Sun
Code Generation Near Optimality Scientific Hypothesis Code Generation Task Sequential Selection Test Scenario

September 12, 2024

September 10, 2024

HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data
Hossein Hajipour, Lea Schönherr, Thorsten Holz, Mario Fritz
Code Generation Encoder Side Synthetic Training Data Vulnerable Code LLM Generated Code Code Security

September 9, 2024

$\mathbb{USCD}$: Improving Code Generation of LLMs by Uncertainty-Aware Selective Contrastive Decoding
Shuai Wang, Liang Ding, Li Shen, Yong Luo, Zheng He, Wei Yu, Dacheng Tao
Large Language Model Code Generation Contrastive Decoding

Code Generation

Papers

CodeInsight: A Curated Dataset of Practical Coding Solutions from Stack Overflow

Task-oriented Prompt Enhancement via Script Generation

Selection of Prompt Engineering Techniques for Code Generation through Predicting Code Complexity

MOSS: Enabling Code-Driven Evolution and Context Management for AI Agents

AutoAPIEval: A Framework for Automated Evaluation of LLMs in API-Oriented Code Generation

Eliciting Instruction-tuned Code Language Models' Capabilities to Utilize Auxiliary Function for Code Generation

Contextualized Data-Wrangling Code Generation in Computational Notebooks

CraftRTL: High-quality Synthetic Data Generation for Verilog Code Models with Correct-by-Construction Non-Textual Representations and Targeted Code Repair

PromSec: Prompt Optimization for Secure Generation of Functional Source Code with Large Language Models (LLMs)

Combining LLM Code Generation with Formal Specifications and Reactive Program Synthesis

AutoSafeCoder: A Multi-Agent Framework for Securing LLM Code Generation through Static Analysis and Fuzz Testing

RethinkMCTS: Refining Erroneous Thoughts in Monte Carlo Tree Search for Code Generation

B4: Towards Optimal Assessment of Plausible Code Solutions with Plausible Tests

ScriptSmith: A Unified LLM Framework for Enhancing IT Operations via Automated Bash Script Generation, Assessment, and Refinement

Tidal MerzA: Combining affective modelling and autonomous code generation through Reinforcement Learning

Demo: SGCode: A Flexible Prompt-Optimizing System for Secure Generation of Code

Reranking Laws for Language Generation: A Communication-Theoretic Perspective

Policy Filtration in RLHF to Fine-Tune LLM for Code Generation

HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data

$\mathbb{USCD}$: Improving Code Generation of LLMs by Uncertainty-Aware Selective Contrastive Decoding