Data Science Code Generation

Data science code generation focuses on automatically creating executable code from natural language descriptions of data analysis tasks, aiming to accelerate the data science workflow. Current research emphasizes improving the accuracy and reliability of code generated by large language models (LLMs), particularly addressing issues like hallucinations and inaccuracies through techniques such as iterative self-correction and instruction fine-tuning guided by input-output specifications. This field is significant because it has the potential to dramatically increase data scientists' productivity by automating tedious coding tasks and enabling faster exploration of data.

Papers

October 9, 2024

DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models
Yiming Huang, Jianwen Luo, Yan Yu, Yitong Zhang, Fangyu Lei, Yifan Wei, Shizhu He, Lifu Huang, Xiao Liu, Jun Zhao, Kang Liu
Agent System Code Generation Task Code Generation Benchmark Data Analysis Agent Data Science Code Generation

August 28, 2024

An Empirical Study on Self-correcting Large Language Models for Data Science Code Generation
Thai Tang Quoc, Duc Ha Minh, Tho Quan Thanh, Anh Nguyen-Duc
Code Generation Empirical Study LLM Based Code Generation Data Science Code Generation

March 29, 2024

DataAgent: Evaluating Large Language Models' Ability to Answer Zero-Shot, Natural Language Queries
Manit Mishra, Abderrahman Braham, Charles Marsom, Bryan Chung, Gavin Griffin, Dakshesh Sidnerlikar, Chatanya Sarin, Arjun Rajaram
Natural Language Processing Zero Shot Benchmark Datasets Critique Ability Natural Language Query Data Analysis Agent Data Science Code Generation

February 12, 2024

Grounding Data Science Code Generation with Input-Output Specifications
Yeming Wen, Pengcheng Yin, Kensen Shi, Henryk Michalewski, Swarat Chaudhuri, Alex Polozov
Large Language Model Code Generation Instruction Fine Tuning Execution Based Input Output Data Programming Data Science Code Generation

November 18, 2022

DS-1000: A Natural and Reliable Benchmark for Data Science Code Generation
Yuhang Lai, Chengxi Li, Yiming Wang, Tianyi Zhang, Ruiqi Zhong, Luke Zettlemoyer, Scott Wen-tau Yih, Daniel Fried, Sida Wang, Tao Yu
New Benchmark Benchmark Study Automatic Evaluation API Usage Code Generation Benchmark Big Data Problem Data Science Code Generation

November 17, 2022

Execution-based Evaluation for Data Science Code Generation Models
Junjie Huang, Chenglong Wang, Jipeng Zhang, Cong Yan, Haotian Cui, Jeevana Priya Inala, Colin Clement, Nan Duan, Jianfeng Gao
Code Generation Model Execution Based Data Science Code Generation