Code Generation

Code generation research focuses on using large language models (LLMs) to automatically produce functional and secure code from natural language descriptions or other inputs. Current efforts concentrate on improving the accuracy and efficiency of code generation, including developing novel training objectives like horizon-length prediction and employing techniques such as multi-agent frameworks, Monte Carlo Tree Search, and prompt engineering to guide LLMs towards better solutions. This field is significant because it promises to dramatically increase developer productivity and accelerate software development, while also raising important questions about code security and reliability that require further investigation.

Papers

June 28, 2024

NLPerturbator: Studying the Robustness of Code LLMs to Natural Language Variations
Junkai Chen, Zhenhao Li, Xing Hu, Xin Xia
Large Language Model Native Robustness Code Generation Natural Language Description Linguistic Variation

June 26, 2024

Towards Large Language Model Aided Program Refinement
Yufan Cai, Zhe Hou, Xiaokun Luan, David Miguel Sanan Baena, Yun Lin, Jun Sun, Jin Song Dong
Code Generation Formal Specification Refinement Approach Code Refinement

June 25, 2024

MPCODER: Multi-user Personalized Code Generator with Explicit and Implicit Style Representation Learning
Zhenlong Dai, Chang Yao, WenKang Han, Ying Yuan, Zhipeng Gao, Jingyuan Chen
Code Generation Real World Code Style Representation Explicit Content Code Semantics Code Generator

June 24, 2024

June 23, 2024

INDICT: Code Generation with Internal Dialogues of Critiques for Both Security and Helpfulness
Hung Le, Yingbo Zhou, Caiming Xiong, Silvio Savarese, Doyen Sahoo
Code Generation Natural Language Instruction Security Related Lower Critique Accuracy Code Interpreter Crime Story Safety Critic Multi Attribute Helpfulness Dataset

June 21, 2024

Investigating the Transferability of Code Repair for Low-Resource Programming Languages
Kyle Wong, Alfonso Amayuelas, Liangming Pan, William Yang Wang
Code Generation Low Resource Program Repair Code Generation Task Code Generation Ability

June 20, 2024

CodeRAG-Bench: Can Retrieval Augment Code Generation?
Zora Zhiruo Wang, Akari Asai, Xinyan Velocity Yu, Frank F. Xu, Yiqing Xie, Graham Neubig, Daniel Fried
Code Generation Code Generation Task CodeRAG Bench Retrieval Augmented Code Generation

June 19, 2024

Prose-to-P4: Leveraging High Level Languages
Mihai-Valentin Dumitru, Vlad-Andrei Bădoiu, Costin Raiciu
Code Generation Metric Aware Abstraction Programming Language

June 17, 2024

June 14, 2024

June 12, 2024

Real2Code: Reconstruct Articulated Objects via Code Generation
Zhao Mandi, Yijia Weng, Dominik Bauer, Shuran Song
Code Generation Articulated Object Synthetic Training Data Shape Completion Real World Object Stereo Matching Algorithm

June 6, 2024

Online Joint Fine-tuning of Multi-Agent Flows
Paul Mineiro
Language Model Code Generation Multi Hop QA Model Documentation

Code Generation

Papers

NLPerturbator: Studying the Robustness of Code LLMs to Natural Language Variations

Towards Large Language Model Aided Program Refinement

MPCODER: Multi-user Personalized Code Generator with Explicit and Implicit Style Representation Learning

NARRepair: Non-Autoregressive Code Generation Model for Automatic Program Repair

UniCoder: Scaling Code Large Language Model via Universal Code

INDICT: Code Generation with Internal Dialogues of Critiques for Both Security and Helpfulness

Investigating the Transferability of Code Repair for Low-Resource Programming Languages

CodeRAG-Bench: Can Retrieval Augment Code Generation?

Prose-to-P4: Leveraging High Level Languages

SWT-Bench: Testing and Validating Real-World Bug-Fixes with Code Agents

Benchmarks and Metrics for Evaluations of Code Generation: A Critical Review

ScenEval: A Benchmark for Scenario-Based Evaluation of Code Generation

Long Code Arena: a Set of Benchmarks for Long-Context Code Models

On the Impacts of Contexts on Repository-Level Code Generation

GitHub Copilot: the perfect Code compLeeter?

DocCGen: Document-based Controlled Code Generation

ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation

Unlock the Correlation between Supervised Fine-Tuning and Reinforcement Learning in Training Code Large Language Models

Real2Code: Reconstruct Articulated Objects via Code Generation

Online Joint Fine-tuning of Multi-Agent Flows