Large Code Model

Large code models (LCMs) are AI systems trained on massive code datasets to perform various programming tasks, aiming to automate and improve software development. Current research focuses on improving LCM performance through techniques like fine-tuning with carefully curated datasets (e.g., using API-guided synthesis), specializing models for specific programming languages or hardware constraints (e.g., creating smaller models for desktop deployment), and enhancing their understanding of programming concepts. These advancements hold significant potential for accelerating software development, enabling no-code/low-code programming paradigms, and improving code quality through automated error correction and bug detection.

Papers

September 17, 2024

Towards No-Code Programming of Cobots: Experiments with Code Synthesis by Large Code Models for Conversational Programming
Kranti Chalamalasetti, Sherzod Hakimov, David Schlangen
Collaborative Robot Code Synthesis Large Code Model

August 15, 2024

API-guided Dataset Synthesis to Finetune Large Code Models
Zongjie Li, Daoyuan Wu, Shuai Wang, Zhendong Su
Fine Tuning Domain Specific Dataset Synthesis Large Code Model

July 25, 2024

HDL-GPT: High-Quality HDL is All You Need
Bhuvnesh Kumar, Saurav Nanda, Ganapathy Parthasarathy, Pawan Patil, Austin Tsai, Parivesh Choudhary
Code Generation Hardware Description Language Large Code Model VHDL Code

July 4, 2024

Narrow Transformer: StarCoder-Based Java-LM For Desktop
Kamalkumar Rathinasamy, Balaji A J, Ankush Kumar, Gagan Gayari, Harshini K, Rajab Ali Mondal, Sreenivasa Raghavan K S, Swayam Singh, Mohammed Rafee Tarafdar
Code Language Model Digital Computer Code Model Code Benchmark Large Code Model

February 8, 2024

Do Large Code Models Understand Programming Concepts? A Black-box Approach
Ashish Hooda, Mihai Christodorescu, Miltiadis Allamanis, Aaron Wilson, Kassem Fawaz, Somesh Jha
Code Generation Black Box Large Code Model Counterfactual Situation Testing

June 19, 2023

RepoFusion: Training Code Models to Understand Your Repository
Disha Shrivastava, Denis Kocetkov, Harm de Vries, Dzmitry Bahdanau, Torsten Scholak
Source Code Code Completion Pre Trained Code Model Repository Scale Large Code Model Repository Context

March 29, 2023

ProductAE: Toward Deep Learning Driven Error-Correction Codes of Large Dimensions
Mohammad Vahid Jamali, Hamid Saber, Homayoon Hatami, Jung Hyun Bae
Deep Learning Data Dimensionality Error Correcting Code Linear Code Neural Code Encoder Based Cross Domain Product Large Code Model