the latest in aiBeta

Code Search

Code search aims to retrieve relevant code snippets from a large corpus based on natural language queries, improving software development efficiency. Current research focuses on enhancing semantic understanding through techniques like Retrieval Augmented Generation (RAG) with large language models (LLMs), contrastive learning, and graph neural networks (GNNs) to better capture code structure and semantics, addressing issues like modality misalignment and bias in search results. Improved datasets with more realistic queries and multiple valid code matches are also a key focus. These advancements have significant implications for developer productivity and the broader software engineering field by facilitating faster code reuse and improved code understanding.

29papers

Papers

March 11, 2025

OASIS: Order-Augmented Strategy for Improved Code Search
Zuchen Gao, Zizheng Zhan, Xianming Li, Erxin Yu, Haotian Zhang, Yuqun Zhang, Jing Li
The Hong Kong Polytechnic University●Southern University of Science and Technology●Kwai Inc.
Code Pair Strategy Logic IC Label Word Similarity Code Search Large Language Model Code Representation

March 7, 2025

LoRACode: LoRA Adapters for Code Embeddings
Saumya Chaturvedi, Aman Chadha, Laurent Bindschaedler
Max Planck Institute for Software Systems●AWS GenAI
Code Corpus Code Retrieval Semantic Code Code Representation Code Search

February 1, 2025

OrcaLoca: An LLM Agent Framework for Software Issue Localization
Zhongming Yu, Hejia Zhang, Yujie Zhao, Hanxian Huang, Matrix Yao, Ke Ding, Jishen Zhao
Software Development BUG Localization Large Language Model Code Search

December 18, 2024

On the Compression of Language Models for Code: An Empirical Study on CodeBERT
Giordano d'Aloisio, Luca Traini, Federica Sarro, Antinisca Di Marco
Compression Technique Linear Compression Real World Code Efficient Model Code Summarization Code Search Empirical Study Language Model

December 1, 2024

CoRNStack: High-Quality Contrastive Data for Better Code Retrieval and Reranking
Tarun Suresh, Revanth Gangi Reddy, Yifei Xu, Zach Nussbaum, Andriy Mulyar, Brandon Duderstadt, Heng Ji
Code Search Code Generation Contrastive Data BUG Localization Code Snippet

August 5, 2024

LLM Agents Improve Semantic Code Search
Sarthak Jain, Aditya Dora, Ka Seng Sam, Prabhat Singh
Retrieval Augmented Generation Semantic Code Code Search Code Retrieval LLM Agent

June 17, 2024

CoSQA+: Pioneering the Multi-Choice Code Search Benchmark with Test-Driven Agents
Jing Gong, Yanghui Wu, Linxi Liang, Yanlin Wang, Jiachi Chen, Mingwei Liu, Zibin Zheng
Code Pair Semantic Code Code Search

April 8, 2024

AutoCodeRover: Autonomous Program Improvement
Yuntong Zhang, Haifeng Ruan, Zhiyu Fan, Abhik Roychoudhury
Automatic Coding LLM Based Programming Assistant Software Development Autonomous Program Improvement Code Search Software Evolution

March 25, 2024

ProCQA: A Large-scale Community-based Programming Question Answering Dataset for Code Search
Zehan Li, Jianfei Zhang, Chuantao Yin, Yuanxin Ouyang, Wenge Rong
Code Search Community Based Question Answer Pair Code Language Model CodeSearchNet Corpus Data Set Code Search Model

January 9, 2024

Rewriting the Code: A Simple Method for Large Language Model Augmented Code Search
Haochen Li, Xin Zhou, Zhiqi Shen
Code Style Transfer Code Search Real World Code Retrieval Performance Simple Method Retrieval Augmented Generation

November 25, 2023

Code Search Debiasing:Improve Search Results beyond Overall Ranking Performance
Sheng Zhang, Hui Li, Yanlin Wang, Zhao Wei, Yong Xiu, Juhong Wang, Rongong Ji
Code Search Code Search Model Search Query Ranking Performance

November 16, 2023

GenCodeSearchNet: A Benchmark Test Suite for Evaluating Generalization in Programming Language Understanding
Andor Diera, Abdelhalim Dahou, Lukas Galke, Fabian Karl, Florian Sihler, Ansgar Scherp
Program Comprehension Benchmark Suite Code Search CodeSearchNet Corpus Code Generation

October 15, 2023

ACES: Generating Diverse Programming Puzzles with with Autotelic Generative Models
Julien Pourcel, Cédric Colas, Gaia Molinaro, Pierre-Yves Oudeyer, Laetitia Teodorescu
Complex Program LLM Based Code Search State of the Art Generative Autotelic Agent Code LLM

October 12, 2023

Rethinking Negative Pairs in Code Search
Haochen Li, Xin Zhou, Luu Anh Tuan, Chunyan Miao
Code Search Model Negative Pair Code Search Code Corpus Code Representation

October 10, 2023

Contrastive Prompt Learning-based Code Search based on Interaction Matrix
Yubo Zhang, Yanfang Liu, Xinxin Fan, Yunfeng Lu
Automatic Prompt Optimization Semantic Matching Code Search Linguistic Representation

June 27, 2023

Constructing Multilingual Code Search Dataset Using Neural Machine Translation
Ryo Sekizawa, Nan Duan, Shuai Lu, Hitomi Yanaka
Multilingual Code Search Dataset Neural Machine Translation Back Translation Natural Language Query Code Search

May 29, 2023

Coeditor: Leveraging Contextual Changes for Multi-round Code Auto-editing
Jiayi Wei, Greg Durrett, Isil Dillig
Code Completion Code Editing Code Completion Model Context Shift Code Search

May 27, 2023

Backdooring Neural Code Search
Weisong Sun, Yuchen Chen, Guanhong Tao, Chunrong Fang, Xiangyu Zhang, Quanjun Zhang, Bin Luo
Code Vulnerability Neural Backdoor Vulnerable Code Malicious Code Code Search

May 19, 2023