Capability Evolution

Capability evolution in artificial intelligence focuses on understanding and enhancing the abilities of various AI models, particularly large language models (LLMs), across diverse tasks. Current research emphasizes evaluating these capabilities through novel benchmarks and frameworks, often analyzing model performance under incomplete information or with limited data, and exploring the role of factors like data quality and model architecture (e.g., transformers, state space models). This research is crucial for responsible AI development, informing the creation of more robust and reliable systems with applications ranging from robotics and software engineering to education and scientific research.

Papers

October 11, 2024

MedMobile: A mobile-sized language model with expert-level clinical capabilities
Krithik Vishwanath, Jaden Stryker, Anton Alaykin, Daniel Alexander Alber, Eric Karl Oermann
Language Model Retrieval Augmented Generation Capability Evolution Mobile Health High Level Reasoning

October 8, 2024

ToolBridge: An Open-Source Dataset to Equip LLMs with External Tool Capabilities
Zhenchao Jin, Mengchen Liu, Dongdong Chen, Lingting Zhu, Yunsheng Li, Lequan Yu
Large Language Model Training Data Open Source Capability Evolution Flexible Toolkit Evaluation Datasets Pedagogical Agent

October 6, 2024

On Evaluating LLMs' Capabilities as Functional Approximators: A Bayesian Perspective
Shoaib Ahmed Siddiqui, Yanzhi Chen, Juyeon Heo, Menglin Xia, Adrian Weller
Large Language Model Capability Evolution Bayesian Perspective Model Capability Model Generation Functional Model

October 1, 2024

September 25, 2024

Data-Centric AI Governance: Addressing the Limitations of Model-Focused Policies
Ritwik Gupta, Leah Walker, Rodolfo Corona, Stephanie Fu, Suzanne Petryk, Janet Napolitano, Trevor Darrell, Andrew W. Reddie
Model Performance Fundamental Limitation Capability Evolution Artificial Intelligence Governance Regulatory Regime Efficient Frontier Policy Reproducibility

September 23, 2024

Do Large Language Models have Problem-Solving Capability under Incomplete Information Scenarios?
Yuyan Chen, Tianhao Yu, Yueze Li, Songzhou Yan, Sijia Liu, Jiaqing Liang, Yanghua Xiao
Capability Evolution Problem Solving Open Problem

September 20, 2024

Eliciting Instruction-tuned Code Language Models' Capabilities to Utilize Auxiliary Function for Code Generation
Seonghyeon Lee, Suyeon Kim, Joonwon Jang, Heejae Chon, Dongha Lee, Hwanjo Yu
Code Generation Capability Evolution Instruction Following Instruction Tuned Model Code Language Model Proprietary Large Language Model Auxiliary Function

September 19, 2024

Social impact of CAVs -- coexistence of machines and humans in the context of route choice
Grzegorz Jamróz, Ahmet Onur Akman, Anastasia Psarou, Zoltán Györgi Varga, Rafał Kucharski
Autonomous Vehicle New Machine Real Human Capability Evolution Traffic Management System Societal Impact Connected and Automated Vehicle Route Choice

September 17, 2024

Enhancing Low-Resource Language and Instruction Following Capabilities of Audio Language Models
Potsawee Manakul, Guangzhi Sun, Warit Sirichotedumrong, Kasima Tharnpipitchai, Kunat Pipatanakul
Language Model Speech Recognition Low Resource Language Human Instruction Capability Evolution Emergent Ability Audio Language Model

September 9, 2024

Online Resynthesis of High-Level Collaborative Tasks for Robots with Changing Capabilities
Amy Fang, Tenny Yin, Hadas Kress-Gazit
Non Humanoid Robot Capability Evolution Robot Behavior Heterogeneous Robot Collaborative Task Warehouse Automation

August 28, 2024

Atari-GPT: Benchmarking Multimodal Large Language Models as Low-Level Policies in Atari Games
Nicholas R. Waytowich, Devin White, MD Sunbeam, Vinicius G. Goecks
Multimodal Large Language Model Capability Evolution Traditional Reinforcement Learning ATARI Game Multimodal Knowledge

August 15, 2024

Benchmarking the Capabilities of Large Language Models in Transportation System Engineering: Accuracy, Consistency, and Reasoning Behaviors
Usman Syed, Ethan Light, Xingang Guo, Huan Zhang, Lianhui Qin, Yanfeng Ouyang, Bin Hu
Large Language Model Capability Evolution Transportation System Reasoning Behavior

August 14, 2024

On learning capacities of Sugeno integrals with systems of fuzzy relational equations
Ismaïl Baaj
System Description Capability Evolution First Integral Min Max Capacity Loss Fuzzy Relation

August 13, 2024

Re-TASK: Revisiting LLM Tasks from Capability, Skill, and Knowledge Perspectives
Zhihu Wang, Shiwan Zhao, Yu Wang, Heyuan Huang, Sitao Xie, Yubo Zhang, Jiaxin Shi, Zhixing Wang, Hongyan Li, Junchi Yan
Large Language Model Capability Evolution Domain Specific Task Multi TASK Skill Adaptation

August 9, 2024

August 2, 2024

July 26, 2024

Mechanism Design for Locating Facilities with Capacities with Insufficient Resources
Gennaro Auricchio, Harry J. Clough, Jie Zhang
Nash Equilibrium Capability Evolution Mechanism Design Facility Location Problem Facility Location Truthful Incentive Mechanism Randomized Mechanism

Capability Evolution

Papers

MedMobile: A mobile-sized language model with expert-level clinical capabilities

ToolBridge: An Open-Source Dataset to Equip LLMs with External Tool Capabilities

On Evaluating LLMs' Capabilities as Functional Approximators: A Bayesian Perspective

Exploring How Non-Prehensile Manipulation Expands Capability in Robots Experiencing Multi-Joint Failure

Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation

Data-Centric AI Governance: Addressing the Limitations of Model-Focused Policies

Do Large Language Models have Problem-Solving Capability under Incomplete Information Scenarios?

Eliciting Instruction-tuned Code Language Models' Capabilities to Utilize Auxiliary Function for Code Generation

Social impact of CAVs -- coexistence of machines and humans in the context of route choice

Enhancing Low-Resource Language and Instruction Following Capabilities of Audio Language Models

Online Resynthesis of High-Level Collaborative Tasks for Robots with Changing Capabilities

Atari-GPT: Benchmarking Multimodal Large Language Models as Low-Level Policies in Atari Games

Benchmarking the Capabilities of Large Language Models in Transportation System Engineering: Accuracy, Consistency, and Reasoning Behaviors

On learning capacities of Sugeno integrals with systems of fuzzy relational equations

Re-TASK: Revisiting LLM Tasks from Capability, Skill, and Knowledge Perspectives

Evaluating the capability of large language models to personalize science texts for diverse middle-school-age learners

Exploring Capability-Based Control Distributions of Human-Robot Teams Through Capability Deltas: Formalization and Implications

CYBERSECEVAL 3: Advancing the Evaluation of Cybersecurity Risks and Capabilities in Large Language Models

Using LLMs to Establish Implicit User Sentiment of Software Desirability

Mechanism Design for Locating Facilities with Capacities with Insufficient Resources