Real World Code

Real-world code research focuses on bridging the gap between large language models (LLMs) and practical software development, aiming to improve the quality, security, and efficiency of automatically generated code. Current research emphasizes developing methods for generating equivalent code representations, ensuring code correctness through techniques like hierarchical debugging and polyhedral modeling, and mitigating security vulnerabilities via prompt optimization and generative adversarial networks. This field is significant because it directly impacts software engineering practices, potentially increasing developer productivity and improving software reliability and security.

Papers

February 23, 2024

Studying LLM Performance on Closed- and Open-source Data
Toufique Ahmed, Christian Bird, Premkumar Devanbu, Saikat Chakraborty
Large Language Model Real World Code LLM Performance Open Data Software Developer

February 20, 2024

Code Needs Comments: Enhancing Code LLMs with Comment Augmentation
Demin Song, Honglin Guo, Yunhua Zhou, Shuhao Xing, Yudong Wang, Zifan Song, Wenwei Zhang, Qipeng Guo, Hang Yan, Xipeng Qiu, Dahua Lin
Large Language Model Real World Code Text Augmentation Online Comment Pre Training Corpus Code Benchmark Language Alignment

February 19, 2024

WorldCoder, a Model-Based LLM Agent: Building World Models by Writing Code and Interacting with the Environment
Hao Tang, Darren Key, Kevin Ellis
Task Planning Real World Code World Model Environment Feature LLM Based Agent Model Based Agent Grid World Java Programming

February 18, 2024

Can ChatGPT Support Developers? An Empirical Evaluation of Large Language Models for Code Generation
Kailun Jin, Chung-Yu Wang, Hung Viet Pham, Hadi Hemmati
Large Language Model Code Generation Real World Code Empirical Evaluation High Level LLM Generated Code Redefining Developer Assistance

February 14, 2024

Trained Without My Consent: Detecting Code Inclusion In Language Models Trained on Code
Vahid Majdinasab, Amin Nikanjam, Foutse Khomh
Language Model Real World Code Code Clone Detection Informed Consent Clone Detection Code Detection

February 7, 2024

Code as Reward: Empowering Reinforcement Learning with VLMs
David Venuto, Sami Nur Islam, Martin Klissarov, Doina Precup, Sherry Yang, Ankit Anand
Reinforcement Learning Vision Language Model Real World Code Reward Report Sparse Reward Environment

February 3, 2024

Calibration and Correctness of Language Models for Code
Claudio Spiess, David Gros, Kunal Suresh Pai, Michael Pradel, Md Rafiqul Islam Rabin, Amin Alipour, Susmit Jha, Prem Devanbu, Toufique Ahmed
Language Model Code Generation Real World Code Calibration Performance Model Generated Low Confidence Pre Trained Code Generation Model

January 19, 2024

ZnTrack -- Data as Code
Fabian Zills, Moritz Schäfer, Samuel Tovey, Johannes Kästner, Christian Holm
Raw Data Real World Code Computation Method Large Datasets Version Control

January 12, 2024

Between Lines of Code: Unraveling the Distinct Patterns of Machine and Human Programmers
Yuling Shi, Hongyu Zhang, Chengcheng Wan, Xiaodong Gu
New Machine Code Generation Real World Code Source Code Code Mixed Best Fit Line Human Programmer Distinct Pattern

January 9, 2024

Rewriting the Code: A Simple Method for Large Language Model Augmented Code Search
Haochen Li, Xin Zhou, Zhiqi Shen
Retrieval Augmented Generation Real World Code Retrieval Performance Code Search Simple Method Code Style Transfer

January 3, 2024

Using AI/ML to Find and Remediate Enterprise Secrets in Code & Document Sharing Platforms
Gregor Kerr, David Algorry, Senad Ibraimoski, Peter Maciver, Sean Moran
Machine Learning Artificial Intelligence Real World Code Programming Community Synthetic Data Vault

January 1, 2024

If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents
Ke Yang, Jiateng Liu, John Wu, Chaoqi Yang, Yi R. Fung, Sha Li, Zixuan Huang, Xu Cao, Xingyao Wang, Yiquan Wang, Heng Ji, Chengxiang Zhai
Large Language Model Language Model Medical LLM Code Generation Real World Code Intelligent Agent LangId Magic Spell

December 22, 2023

Turbulence: Systematically and Automatically Testing Instruction-Tuned Large Language Models for Code
Shahin Honarvar, Mark van der Wilk, Alastair Donaldson
Native Robustness Natural Language Code Generation Real World Code Stratified Turbulence Code Generation Ability Automated Software Testing

December 20, 2023

December 18, 2023

Traces of Memorisation in Large Language Models for Code
Ali Al-Kaswan, Maliheh Izadi, Arie van Deursen
Large Language Model Real World Code Source Code Code Completion Model Finite Trace Data Extraction Attack Memorisation Profile

December 8, 2023

Converting Epics/Stories into Pseudocode using Transformers
Gaurav Kolhatkar, Akshit Madan, Nidhi Kowtal, Satyajit Roy, Sheetal Sonawane
Transformer Megatron Decepticons Real World Code Written Story Pseudo Code User Story Converting Epic

December 7, 2023

Chain of Code: Reasoning with a Language Model-Augmented Code Emulator
Chengshu Li, Jacky Liang, Andy Zeng, Xinyun Chen, Karol Hausman, Dorsa Sadigh, Sergey Levine, Li Fei-Fei, Fei Xia, Brian Ichter
Language Model Complex Reasoning Human Language Real World Code Side Chain Code Efficiency Code Interpreter Pseudo Code Code Driven Reasoning

November 22, 2023

Cracking the Code of Negative Transfer: A Cooperative Game Theoretic Approach for Cross-Domain Sequential Recommendation
Chung Park, Taesan Kim, Taekyoon Choi, Junui Hong, Yelim Yu, Mincheol Cho, Kyunam Lee, Sungil Ryu, Hyungjun Yoon, Minsung Choi, Jaegul Choo
Contrastive Learning Real World Code Sequential Recommendation Cooperative Game Theory conTrastive Learning Negative Transfer Heterogeneous Knowledge Cross Domain Sequential Recommendation

November 16, 2023

Leveraging Code to Improve In-context Learning for Semantic Parsing
Ben Bogin, Shivanshu Gupta, Peter Clark, Ashish Sabharwal
Context Learning Domain Specific Real World Code Semantic Parsing Pre Training Corpus Semantic Parser

Real World Code

Papers

Studying LLM Performance on Closed- and Open-source Data

Code Needs Comments: Enhancing Code LLMs with Comment Augmentation

WorldCoder, a Model-Based LLM Agent: Building World Models by Writing Code and Interacting with the Environment

Can ChatGPT Support Developers? An Empirical Evaluation of Large Language Models for Code Generation

Trained Without My Consent: Detecting Code Inclusion In Language Models Trained on Code

Code as Reward: Empowering Reinforcement Learning with VLMs

Calibration and Correctness of Language Models for Code

ZnTrack -- Data as Code

Between Lines of Code: Unraveling the Distinct Patterns of Machine and Human Programmers

Rewriting the Code: A Simple Method for Large Language Model Augmented Code Search

Using AI/ML to Find and Remediate Enterprise Secrets in Code & Document Sharing Platforms

If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents

Turbulence: Systematically and Automatically Testing Instruction-Tuned Large Language Models for Code

CORECODE: A Common Sense Annotated Dialogue Dataset with Benchmark Tasks for Chinese Large Language Models

CodeLL: A Lifelong Learning Dataset to Support the Co-Evolution of Data and Language Models of Code

Traces of Memorisation in Large Language Models for Code

Converting Epics/Stories into Pseudocode using Transformers

Chain of Code: Reasoning with a Language Model-Augmented Code Emulator

Cracking the Code of Negative Transfer: A Cooperative Game Theoretic Approach for Cross-Domain Sequential Recommendation

Leveraging Code to Improve In-context Learning for Semantic Parsing