Code Model

Code models, large language models (LLMs) trained on vast code datasets, aim to automate various software engineering tasks, such as code generation, debugging, and understanding. Current research focuses on improving model accuracy and efficiency through techniques like synthetic data generation (e.g., using code edits or program diffs), reinforcement learning for performance optimization, and contrastive learning for robustness. These advancements are significant because they promise to increase programmer productivity, improve code quality and security, and enable new applications in software development and beyond.

Papers

January 4, 2024

LLM Augmented LLMs: Expanding Capabilities through Composition
Rachit Bansal, Bidisha Samanta, Siddharth Dalmia, Nitish Gupta, Shikhar Vashishth, Sriram Ganapathy, Abhishek Bapna, Prateek Jain, Partha Talukdar
Language Model Code Generation Low Resource Language Capability Evolution Compositional Ability Foundational Model Code Model LLM Based Augmentation

December 4, 2023

Magicoder: Empowering Code Generation with OSS-Instruct
Yuxiang Wei, Zhe Wang, Jiawei Liu, Yifeng Ding, Lingming Zhang
Code Generation Instruction Data Code Model Code Snippet Synthetic Instruction Data

November 16, 2023

September 14, 2023

Pop Quiz! Do Pre-trained Code Models Possess Knowledge of Correct API Names?
Terry Yue Zhuo, Xiaoning Du, Zhenchang Xing, Jiamou Sun, Haowei Quan, Li Li, Liming Zhu
API Usage Code Model Pre Trained Code Model Pop Quiz

August 7, 2023

Exploiting Code Symmetries for Learning Program Semantics
Kexin Pei, Weichen Li, Qirui Jin, Shuyang Liu, Scott Geng, Lorenzo Cavallaro, Junfeng Yang, Suman Jana
Approximate Symmetry Code Model Code Semantics Preserving Transformation

May 10, 2023

A Black-Box Attack on Code Models via Representation Nearest Neighbor Search
Jie Zhang, Wei Ma, Qiang Hu, Shangqing Liu, Xiaofei Xie, Yves Le Traon, Yang Liu
Adversarial Example Adversarial Training Adversarial Sample Black Box Attack Code Model

April 14, 2023

Stochastic Code Generation
Swapnil Sharma, Nikita Anand, Kranthi Kiran G.
Large Language Model Text Generation Code Generation Code Model Long Context Code

December 20, 2022

Unveiling Code Pre-Trained Models: Investigating Syntax and Semantics Capacities
Wei Ma, Shangqing Liu, Mengjie Zhao, Xiaofei Xie, Wenhan Wang, Qiang Hu, Jie Zhang, Yang Liu
Semantic Understanding Code Syntax Code Model Code Semantics Pre Trained Code Model

November 21, 2022

CLAWSAT: Towards Both Robust and Accurate Code Models
Jinghan Jia, Shashank Srikant, Tamara Mitrovska, Chuang Gan, Shiyu Chang, Sijia Liu, Una-May O'Reilly
Obfuscation Technique Code Model Pre Trained Code Model Adversarial Code

October 30, 2022

Medical Codes Prediction from Clinical Notes: From Human Coders to Machines
Byung-Hak Kim
New Machine Clinical Note Unstructured Clinical Code Model Human Programmer Medical Coding Medical Code Prediction

June 11, 2022

CodeS: Towards Code Model Generalization Under Distribution Shift
Qiang Hu, Yuejun Guo, Xiaofei Xie, Maxime Cordy, Lei Ma, Mike Papadakis, Yves Le Traon
Distribution Shift Code Model Code Data Code Classification Representation Shift Distribution Shift Benchmark

April 25, 2022

Natural Language to Code Translation with Execution
Freda Shi, Daniel Fried, Marjan Ghazvininejad, Luke Zettlemoyer, Sida I. Wang
Natural Language Code Model Code Semantics Code Translation Based Selection Semantic Equivalence

April 4, 2022

Neural Rendering of Humans in Novel View and Pose from Monocular Video
Tiantian Wang, Nikolaos Sarafianos, Ming-Hsuan Yang, Tony Tung
Neural Radiance Field Human Pose Real Human Neural Rendering Monocular Video Code Model Novel View