Capability Evolution

Capability evolution in artificial intelligence focuses on understanding and enhancing the abilities of various AI models, particularly large language models (LLMs), across diverse tasks. Current research emphasizes evaluating these capabilities through novel benchmarks and frameworks, often analyzing model performance under incomplete information or with limited data, and exploring the role of factors like data quality and model architecture (e.g., transformers, state space models). This research is crucial for responsible AI development, informing the creation of more robust and reliable systems with applications ranging from robotics and software engineering to education and scientific research.

Papers

July 20, 2024

Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data
Xinyi Wang, Antonis Antoniades, Yanai Elazar, Alfonso Amayuelas, Alon Albalak, Kexun Zhang, William Yang Wang
Large Language Model Pre Training Capability Evolution N Gram Easy to Hard Generalization

July 19, 2024

LLMs left, right, and center: Assessing GPT's capabilities to label political bias from web domains
Raphael Hernandes, Giulio Corsi
Medical LLM GPT Neo Capability Evolution Domain Name Political Bias Medium Bias Dominance Hierarchy Bias Score

July 18, 2024

New Capability to Look Up an ASL Sign from a Video Example
Carol Neidle, Augustine Opoku, Carey Ballard, Yang Zhou, Xiaoxiao He, Gregory Dimitriadis, Dimitris Metaxas
Sign Language Capability Evolution American Sign Language

July 14, 2024

LAB-Bench: Measuring Capabilities of Language Models for Biology Research
Jon M. Laurent, Joseph D. Janizek, Michael Ruzo, Michaela M. Hinks, Michael J. Hammerling, Siddharth Narayanan, Manvitha Ponnapati, Andrew D. White, Samuel G. Rodriques
Language Model Capability Evolution Emergent Ability Likely LAB of Origin

July 8, 2024

Exploring the Capability of ChatGPT to Reproduce Human Labels for Social Computing Tasks (Extended Version)
Yiming Zhu, Peixian Zhang, Ehsan-Ul Haq, Pan Hui, Gareth Tyson
ChatGPT Generated Conversation Capability Evolution Extended Version Efficient Annotation Human Label Social Computing Task

July 5, 2024

An AI Architecture with the Capability to Classify and Explain Hardware Trojans
Paul Whitten, Francis Wolff, Chris Papachristou
Machine Learning Capability Evolution Classification Application Hardware Trojan Artificial Intelligence Architecture Hardware Trojan Detection

July 4, 2024

July 1, 2024

Enhancing the Capability and Robustness of Large Language Models through Reinforcement Learning-Driven Query Refinement
Zisu Huang, Xiaohua Wang, Feiran Zhang, Zhibo Xu, Cenyuan Zhang, Xiaoqing Zheng, Xuanjing Huang
Large Language Model Native Robustness Complex Prompt Jailbreak Attack Capability Evolution Positive Reinforcement Unsafe Prompt Entity Centric Query

June 25, 2024

Measuring and Benchmarking Large Language Models' Capabilities to Generate Persuasive Language
Amalie Brogaard Pauli, Isabelle Augenstein, Ira Assent
Capability Evolution Measurement System Persuasive Argument Persuasive Capability

June 24, 2024

Exploring the Capability of Mamba in Speech Applications
Koichi Miyazaki, Yoshiki Masuyama, Masato Murata
Automatic Speech Recognition Transformer Based Model Speech Synthesis Capability Evolution Mamba in Mamba Speech Application Long Form

June 20, 2024

June 17, 2024

Refiner: Restructure Retrieval Content Efficiently to Advance Question-Answering Capabilities
Zhonghao Li, Xuming Hu, Aiwei Liu, Kening Zheng, Sirui Huang, Hui Xiong
Retrieval Augmented Generation Capability Evolution Decoder Only LLM Based Refiner Structure Information Extraction Structure Aware Retrieval

June 13, 2024

An AI Architecture with the Capability to Explain Recognition Results
Paul Whitten, Francis Wolff, Chris Papachristou
Machine Learning Model High Explainability Capability Evolution Explanation Method Explainable System Artificial Intelligence Architecture Enhanced Recognition

June 11, 2024

VulDetectBench: Evaluating the Deep Capability of Vulnerability Detection with Large Language Models
Yu Liu, Lang Gao, Mingxin Yang, Yu Xie, Ping Chen, Xiaojin Zhang, Wei Chen
Capability Evolution Vulnerability Detection Software Vulnerability Software Vulnerability Prediction

June 9, 2024

What is my quantum computer good for? Quantum capability learning with physics-aware neural networks
Daniel Hothem, Ashe Miller, Timothy Proctor
Neural Network Quantum Computer Capability Evolution Quantum Program

June 1, 2024

Are Large Vision Language Models up to the Challenge of Chart Comprehension and Reasoning? An Extensive Investigation into the Capabilities and Limitations of LVLMs
Mohammed Saidul Islam, Raian Rahman, Ahmed Masry, Md Tahmid Rahman Laskar, Mir Tafseer Nayeem, Enamul Hoque
Complex Reasoning Large Vision Language Model Capability Evolution Chart Comprehension Vision Language Reasoning Chart Question Answering

May 27, 2024

Capability Evolution

Papers

Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data

LLMs left, right, and center: Assessing GPT's capabilities to label political bias from web domains

New Capability to Look Up an ASL Sign from a Video Example

LAB-Bench: Measuring Capabilities of Language Models for Biology Research

Exploring the Capability of ChatGPT to Reproduce Human Labels for Social Computing Tasks (Extended Version)

An AI Architecture with the Capability to Classify and Explain Hardware Trojans

Sparsest Models Elude Pruning: An Expos\'e of Pruning's Current Capabilities

An Empirical Study on Capability of Large Language Models in Understanding Code Semantics

Enhancing the Capability and Robustness of Large Language Models through Reinforcement Learning-Driven Query Refinement

Measuring and Benchmarking Large Language Models' Capabilities to Generate Persuasive Language

Exploring the Capability of Mamba in Speech Applications

Prism: A Framework for Decoupling and Assessing the Capabilities of VLMs

CityBench: Evaluating the Capabilities of Large Language Models for Urban Tasks

Refiner: Restructure Retrieval Content Efficiently to Advance Question-Answering Capabilities

An AI Architecture with the Capability to Explain Recognition Results

VulDetectBench: Evaluating the Deep Capability of Vulnerability Detection with Large Language Models

What is my quantum computer good for? Quantum capability learning with physics-aware neural networks

Are Large Vision Language Models up to the Challenge of Chart Comprehension and Reasoning? An Extensive Investigation into the Capabilities and Limitations of LVLMs

LLM-Optic: Unveiling the Capabilities of Large Language Models for Universal Visual Grounding

On Mesa-Optimization in Autoregressively Trained Transformers: Emergence and Capability