Capability Evolution

Capability evolution in artificial intelligence focuses on understanding and enhancing the abilities of various AI models, particularly large language models (LLMs), across diverse tasks. Current research emphasizes evaluating these capabilities through novel benchmarks and frameworks, often analyzing model performance under incomplete information or with limited data, and exploring the role of factors like data quality and model architecture (e.g., transformers, state space models). This research is crucial for responsible AI development, informing the creation of more robust and reliable systems with applications ranging from robotics and software engineering to education and scientific research.

Papers

May 19, 2024

May 14, 2024

What is it for a Machine Learning Model to Have a Capability?
Jacqueline Harding, Nathaniel Sharadin
Machine Learning Machine Learning Model Capability Evolution Model Capability

May 9, 2024

Exploring the Capabilities of Large Multimodal Models on Dense Text
Shuo Zhang, Biao Yang, Zhang Li, Zhiyin Ma, Yuliang Liu, Xiang Bai
Large Multimodal Model Capability Evolution Large Multi Modal Model Information Dense Dense Text

May 7, 2024

Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense
Siqi Shen, Lajanugen Logeswaran, Moontae Lee, Honglak Lee, Soujanya Poria, Rada Mihalcea
Fundamental Limitation Commonsense Knowledge Capability Evolution Commonsense Reasoning Capability Cultural Commonsense

May 6, 2024

Quantifying the Capabilities of LLMs across Scale and Precision
Sher Badshah, Hassan Sajjad
Zero Shot Medical LLM Visual Analogue Scale Large Model Model Performance Capability Evolution Multidimensional Local Precision Rate Instruct Model

May 2, 2024

Exploring the Capabilities of Large Language Models for Generating Diverse Design Solutions
Kevin Ma, Daniele Grandi, Christopher McComb, Kosa Goucher-Lambert
Capability Evolution Design Diversity

April 30, 2024

Capabilities: An Ontology
John Beverley, David Limbaugh, Eric Merrell, Peter M. Koch, Barry Smith
Top Level Ontology Capability Evolution Ontological Argument Psychological Disposition

April 29, 2024

Capabilities of Gemini Models in Medicine
Khaled Saab, Tao Tu, Wei-Hung Weng, Ryutaro Tanno, David Stutz, Ellery Wulczyn, Fan Zhang, Tim Strother, Chunjong Park, Elahe Vedadi, Juanma Zambrano Chaves, Szu-Yeu Hu, Mike Schaekermann, Aishwarya Kamath, Yong Cheng, David G. T. Barrett, Cathy Cheung, Basil Mustafa, Anil Palepu, Daniel McDuff, Le Hou, Tomer Golany, Luyang Liu, Jean-baptiste Alayrac, Neil Houlsby, Nenad Tomasev, Jan Freyberg, Charles Lau, Jonas Kemp, Jeremy Lai, Shekoofeh Azizi, Kimberly Kanada, SiWai Man, Kavita Kulkarni, Ruoxi Sun, Siamak Shakeri, Luheng He, Ben Caine, Albert Webson, Natasha Latysheva, Melvin Johnson, Philip Mansfield, Jian Lu, Ehud Rivlin, Jesper Anderson, Bradley Green, Renee Wong, Jonathan Krause, Jonathon Shlens, Ewa Dominowska, S. M. Ali Eslami, Katherine Chou, Claire Cui, Oriol Vinyals, Koray Kavukcuoglu, James Manyika, Jeff Dean, Demis Hassabis, Yossi Matias, Dale Webster, Joelle Barral, Greg Corrado, Christopher Semturs, S. Sara Mahdavi, Juraj Gottweis, Alan Karthikesalingam, Vivek Natarajan
Capability Evolution Multimodal Benchmark Medical Dialogue System Medical Text Summarization Google Gemini Med Gemini

April 22, 2024

Assessing GPT-4-Vision's Capabilities in UML-Based Code Generation
Gábor Antal, Richárd Vozár, Rudolf Ferenc
Code Generation Capability Evolution GPT 4 Vision Class Unified Modeling Language Diagram

April 16, 2024

Improving the Capabilities of Large Language Model Based Marketing Analytics Copilots With Semantic Search And Fine-Tuning
Yilin Gao, Sai Kumar Arava, Yancheng Li, James W. Snyder
Large Language Model Artificial Intelligence Model Capability Evolution Semantic Search Domain Specific Question Answering Marketing Mix Modeling

April 4, 2024

Capabilities of Large Language Models in Control Engineering: A Benchmark Study on GPT-4, Claude 3 Opus, and Gemini 1.0 Ultra
Darioush Kevian, Usman Syed, Xingang Guo, Aaron Havens, Geir Dullerud, Peter Seiler, Lianhui Qin, Bin Hu
Large Language Model Capability Evolution Benchmark Study Dynamic Control Classical Control Real World Control Control Engineering

April 3, 2024

Auxiliary task demands mask the capabilities of smaller language models
Jennifer Hu, Michael C. Frank
Related Task Capability Evolution Analogical Reasoning Auxiliary Task Smaller Language Model Cognitive Capability Grammaticality Judgment

March 25, 2024

A Comprehensive Study of the Capabilities of Large Language Models for Vulnerability Detection
Benjamin Steenhoek, Md Mahbubur Rahman, Monoshi Kumar Roy, Mirza Sanjida Alam, Earl T. Barr, Wei Le
Code Generation Capability Evolution Comprehensive Study Security Vulnerability Vulnerability Detection

March 19, 2024

Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs
Victor Carbune, Hassan Mansoor, Fangyu Liu, Rahul Aralikatte, Gilles Baechler, Jindong Chen, Abhanshu Sharma
Large Language Model Vision Language Model Complex Reasoning Capability Evolution Multimodal Task Chart to Table

March 18, 2024

OpenEval: Benchmarking Chinese LLMs across Capability, Alignment and Safety
Chuang Liu, Linhao Yu, Jiaxuan Li, Renren Jin, Yufei Huang, Ling Shi, Junhui Zhang, Xinmeng Ji, Tingting Cui, Tao Liu, Jinwang Song, Hongying Zan, Sun Li, Deyi Xiong
Large Language Model Alignment Problem Human SAFETY Capability Evolution LLM Based Evaluation Chinese Large Language Model First Benchmark Dataset

March 14, 2024

Dial-insight: Fine-tuning Large Language Models with High-Quality Domain-Specific Data Preventing Capability Collapse
Jianwei Sun, Chaoyang Mei, Linlin Wei, Kaiyu Zheng, Na Liu, Ming Cui, Tianyi Li
Large Language Model Domain Specific High Quality Capability Evolution

March 4, 2024

February 28, 2024

FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability
Congying Xia, Chen Xing, Jiangshu Du, Xinyi Yang, Yihao Feng, Ran Xu, Wenpeng Yin, Caiming Xiong
Large Language Model New Benchmark Domain Specific Capability Evolution Open Domain

Capability Evolution

Papers

Exploring the Capabilities of Prompted Large Language Models in Educational and Assessment Applications

MHPP: Exploring the Capabilities and Limitations of Language Models Beyond Basic Code Generation

What is it for a Machine Learning Model to Have a Capability?

Exploring the Capabilities of Large Multimodal Models on Dense Text

Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense

Quantifying the Capabilities of LLMs across Scale and Precision

Exploring the Capabilities of Large Language Models for Generating Diverse Design Solutions

Capabilities: An Ontology

Capabilities of Gemini Models in Medicine

Assessing GPT-4-Vision's Capabilities in UML-Based Code Generation

Improving the Capabilities of Large Language Model Based Marketing Analytics Copilots With Semantic Search And Fine-Tuning

Capabilities of Large Language Models in Control Engineering: A Benchmark Study on GPT-4, Claude 3 Opus, and Gemini 1.0 Ultra

Auxiliary task demands mask the capabilities of smaller language models

A Comprehensive Study of the Capabilities of Large Language Models for Vulnerability Detection

Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs

OpenEval: Benchmarking Chinese LLMs across Capability, Alignment and Safety

Dial-insight: Fine-tuning Large Language Models with High-Quality Domain-Specific Data Preventing Capability Collapse

How does Architecture Influence the Base Capabilities of Pre-trained Language Models? A Case Study Based on FFN-Wider and MoE Transformers

Beyond Specialization: Assessing the Capabilities of MLLMs in Age and Gender Estimation

FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability