Code Summarization

Code summarization aims to automatically generate concise natural language descriptions of source code, improving code understanding and maintainability. Current research heavily utilizes large language models (LLMs), often within encoder-decoder architectures or enhanced with techniques like prompt engineering, retrieval-augmented mechanisms, and multi-task learning, to improve summary quality and address challenges like handling diverse programming languages and code structures. This field is significant because effective code summarization can significantly reduce the time and effort required for software development, maintenance, and comprehension, impacting both research and practical software engineering workflows.

Papers

April 13, 2023

Automatic Semantic Augmentation of Language Model Prompts (for Code Summarization)
Toufique Ahmed, Kunal Suresh Pai, Premkumar Devanbu, Earl T. Barr
Language Model Code Summarization Transformer Based LLM Semantic Augmentation

April 2, 2023

Better Language Models of Code through Self-Improvement
Hung Quoc To, Nghi D. Q. Bui, Jin Guo, Tien N. Nguyen
Language Model Code Generation Real World Code Code Summarization Self Improvement Better Language Model

March 28, 2023

One Adapter for All Programming Languages? Adapter Tuning for Code Search and Summarization
Deze Wang, Boxing Chen, Shanshan Li, Wei Luo, Shaoliang Peng, Wei Dong, Xiangke Liao
Fine Tuning Multilingual Model Structured Summary Code Summarization Code Search Programming Language Long Short Range Adapter Code Intelligence Task

March 16, 2023

Exploring Distributional Shifts in Large Language Models for Code Analysis
Shushan Arakelyan, Rocktim Jyoti Das, Yi Mao, Xiang Ren
Large Language Model Code Generation Distribution Shift Code Summarization Code Analysis Shot Fine Tuning

March 4, 2023

Demystifying What Code Summarization Models Learned
Yu Wang, Ke Wang
Pattern Recognition Code Summarization Syntactic Structure Context Free Grammar Interactive Visual Pattern

March 3, 2023

APIContext2Com: Code Comment Generation by Incorporating Pre-Defined API Documentation
Ramin Shahbazi, Fatemeh Fard
Code Summarization API Usage Code Snippet Code Comment Application Programming Interface Documentation CodeSearchNet Corpus Code Comment Generation

December 20, 2022

A Survey on Pretrained Language Models for Neural Code Intelligence
Yichen Xu, Yanqiao Zhu
Language Model Timely Survey Pretrained Language Model Source Code Code Summarization Programming Community

December 13, 2022

ERNIE-Code: Beyond English-Centric Cross-lingual Pretraining for Programming Languages
Yekun Chai, Shuohuan Wang, Chao Pang, Yu Sun, Hao Tian, Hua Wu
Cross Lingual Code Summarization Code Syntax Programming Language ERNIE ViLG

August 23, 2022

Preprocessing Source Code Comments for Linguistic Models
Sergey Matskevich, Colin S. Gordon
Source Code Code Summarization Online Comment Reference Dataset Code Comment

August 12, 2022

Towards Code Summarization of APIs Based on Unofficial Documentation Using NLP Techniques
AmirHossein Naghshzan
Natural Language Processing Code Summarization API Usage Automated Approach

July 24, 2022

No More Fine-Tuning? An Experimental Evaluation of Prompt Tuning in Code Intelligence
Chaozheng Wang, Yuanhang Yang, Cuiyun Gao, Yun Peng, Hongyu Zhang, Michael R. Lyu
Prompt Tuning Code Summarization Pre Trained Code Model Code Intelligence Code Intelligence Task

July 9, 2022

Few-shot training LLMs for project-specific code-summarization
Toufique Ahmed, Premkumar Devanbu
Large Language Model Language Model Shot Learning Code Summarization Subject Based Training

June 15, 2022

An Extractive-and-Abstractive Framework for Source Code Summarization
Weisong Sun, Chunrong Fang, Yuchen Chen, Quanjun Zhang, Guanhong Tao, Tingxu Han, Yifei Ge, Yudu You, Bin Luo
Code Summarization Generated Summary

June 13, 2022

MetaTPTrans: A Meta Learning Approach for Multilingual Code Representation Learning
Weiguo Pian, Hanyu Peng, Xunzhu Tang, Tiezhu Sun, Haoye Tian, Andrew Habib, Jacques Klein, Tegawendé F. Bissyandé
Meta Learning Code Summarization Code Representation Multilingual Code Search Dataset

June 2, 2022

Learning code summarization from a small and local dataset
Toufique Ahmed, Premkumar Devanbu
Foundation Model Software Engineering Code Summarization Local Datasets Training Point Subject Based Training

May 31, 2022

HierarchyNet: Learning to Summarize Source Code with Heterogeneous Representations
Minh Huynh Nguyen, Nghi D. Q. Bui, Truong Son Hy, Long Tran-Thanh, Tien N. Nguyen
LeArning Abstract Graph Transformer Source Code Code Summarization Hierarchical Network Heterogeneous Representation Hierarchical Cross Attention Code Change Representation

April 26, 2022

GypSum: Learning Hybrid Representations for Code Summarization
Yu Wang, Yu Dong, Xuesong Lu, Aoying Zhou
Text Summarization Code Summarization Code Representation Encoder Decoder Framework Hybrid Representation Salt Detection

April 5, 2022

An Exploratory Study on Code Attention in BERT
Rishab Sharma, Fuxiang Chen, Fatemeh Fard, David Lo
Language Model Ticket BERT Code Summarization Code Representation Exploratory Study Transformer Based Pre Trained Language Code Clone Detection

March 18, 2022

M2TS: Multi-Scale Multi-Modal Approach Based on Transformer for Source Code Summarization
Yuexiu Gao, Chen Lyu
Transformer Based Multi Scale Multi Scale Feature Code Summarization Code Representation Abstract Syntax Tree

March 16, 2022

MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages
Zhiruo Wang, Grace Cuenca, Shuyan Zhou, Frank F. Xu, Graham Neubig
New Benchmark Code Generation Multilingual Dataset Code Summarization Code Pair