Generalist Model

Generalist models aim to create single, unified artificial intelligence systems capable of handling diverse tasks without task-specific fine-tuning, unlike specialist models trained for individual applications. Current research focuses on developing and evaluating these models across various domains, employing architectures like transformers and diffusion models, and exploring training strategies such as multi-task learning and instruction tuning to improve generalization and efficiency. This research is significant because it addresses the limitations of specialist models, potentially leading to more adaptable and resource-efficient AI systems with broader applicability in fields ranging from healthcare and robotics to computer vision and natural language processing.

Papers

April 4, 2024

How does Multi-Task Training Affect Transformer In-Context Capabilities? Investigations with Function Classes
Harmon Bhasin, Timothy Ossowski, Yiqiao Zhong, Junjie Hu
Large Language Model Context Learning Multi Task Comprehensive Investigation Generalist Model Function Class

March 14, 2024

Faceptor: A Generalist Model for Face Perception
Lixiong Qin, Mei Wang, Xuannan Liu, Yuhang Zhang, Wei Deng, Xiaoshuai Song, Weiran Xu, Weihong Deng
Generalist Model Face Image Datasets Analysis Task Naive Adaptation Face Familiarity Perception

February 27, 2024

Intensive Care as One Big Sequence Modeling Problem
Vadim Liventsev, Tobias Fritz
Sequence Modeling Medical Information Mart for Intensive Implicit Neural Network Generalist Model Intensive Care

February 26, 2024

StructLM: Towards Building Generalist Models for Structured Knowledge Grounding
Alex Zhuang, Ge Zhang, Tianyu Zheng, Xinrun Du, Junjie Wang, Weiming Ren, Stephen W. Huang, Jie Fu, Xiang Yue, Wenhu Chen
Large Language Model Structured Data Task Specific Model Semi Structured Generalist Model Knowledge Grounding

February 13, 2024

eCeLLM: Generalizing Large Language Models for E-commerce from Large-scale, High-quality Instruction Data
Bo Peng, Xinyi Ling, Ziru Chen, Huan Sun, Xia Ning
Large Scale E Commerce Instruction Data Generalist Model Domain Generalizability Evaluation Set

December 4, 2023

November 15, 2023

TableLlama: Towards Open Large Generalist Models for Tables
Tianshu Zhang, Xiang Yue, Yifei Li, Huan Sun
Open Source Large Language Model Table Semantics Domain Specific Task Generalist Model Table Task Semi Structured Table

November 14, 2023

GLiNER: Generalist Model for Named Entity Recognition using Bidirectional Transformer
Urchade Zaratiana, Nadi Tomeh, Pierre Holat, Thierry Charnois
Entity Recognition Named Entity Recognition Entity Extraction Generalist Model Bidirectional Transformer

October 25, 2023

From Molecules to Materials: Pre-training Large Generalizable Models for Atomic Property Prediction
Nima Shoghi, Adeesh Kolluru, John R. Kitchin, Zachary W. Ulissi, C. Lawrence Zitnick, Brandon M. Wood
Known Molecule Material Response Generalist Model Chemical Domain Atomic Property

October 23, 2023

Specialist or Generalist? Instruction Tuning for Specific NLP Tasks
Chufan Shi, Yixuan Su, Cheng Yang, Yujiu Yang, Deng Cai
Instruction Tuning Task Specific Generalist Model Generalist Learner Expertise Level

October 4, 2023

Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own
Weirui Ye, Yunsheng Zhang, Haoyang Weng, Xianfan Gu, Shengjie Wang, Tong Zhang, Mengchen Wang, Pieter Abbeel, Yang Gao
Actor Critic Goal Conditioned Reinforcement Learning Generalist Model Dense Reward

September 7, 2023

InstructDiffusion: A Generalist Modeling Interface for Vision Tasks
Zigang Geng, Binxin Yang, Tiankai Hang, Chen Li, Shuyang Gu, Ting Zhang, Jianmin Bao, Zheng Zhang, Han Hu, Dong Chen, Baining Guo
Image Editing Vision Task Computer Vision Task Generalist Model

July 11, 2023

DRMC: A Generalist Model with Dynamic Routing for Multi-Center PET Image Synthesis
Zhiwen Yang, Yang Zhou, Hui Zhang, Bingzheng Wei, Yubo Fan, Yan Xu
Dynamic Routing Positron Emission Tomography Generalist Model Margin Classifier Multi Center Multi Center Study Dose Positron Emission Tomography Positron Emission Tomography Synthesis

June 6, 2023

Turning large language models into cognitive models
Marcel Binz, Eric Schulz
Large Language Model Pre Trained Model Cognitive Model Generalist Model

May 18, 2023

May 10, 2023

Are ChatGPT and GPT-4 General-Purpose Solvers for Financial Text Analytics? A Study on Several Typical Tasks
Xianzhi Li, Samuel Chan, Xiaodan Zhu, Yulong Pei, Zhiqiang Ma, Xiaomo Liu, Sameena Shah
Large Language Model ChatGPT Generated Conversation GPT 4 NLP Task Generalist Model Diverse Task Financial Domain Financial Text

March 25, 2023

Vision Models Can Be Efficiently Specialized via Few-Shot Task-Aware Compression
Denis Kuznedelev, Soroush Tabesh, Kimia Noorbakhsh, Elias Frantar, Sara Beery, Eldar Kurtic, Dan Alistarh
Vision Model Large Vision Model Generalist Model Accurate Model Task Agnostic Compression

December 8, 2022

OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist Models
Jinze Bai, Rui Men, Hao Yang, Xuancheng Ren, Kai Dang, Yichang Zhang, Xiaohuan Zhou, Peng Wang, Sinan Tan, An Yang, Zeyu Cui, Yu Han, Shuai Bai, Wenbin Ge, Jianxin Ma, Junyang Lin, Jingren Zhou, Chang Zhou
Multi Task Multi Task Training Generalist Model Multi Modal Task Task Scaling