Unified Interface

Unified interfaces aim to create single, versatile models capable of handling multiple tasks within a specific domain, eliminating the need for task-specific architectures. Current research focuses on adapting transformer-based large language models (LLMs) for vision and vision-language tasks, using techniques like point-conditioned text generation and unique task identifiers to improve performance and efficiency. This approach promises to simplify model development, reduce computational costs, and improve the generalizability of AI systems across diverse applications, such as document understanding, image generation, and programming with LLMs. The resulting unified frameworks offer a more streamlined and efficient approach to solving complex problems in various fields.

Papers

October 24, 2024

Ferret-UI 2: Mastering Universal User Interface Understanding Across Platforms
Zhangheng Li, Keen You, Haotian Zhang, Di Feng, Harsh Agrawal, Xiujun Li, Mohana Prasad Sathya Moorthy, Jeff Nichols, Yinfei Yang, Zhe Gan
Multimodal Large Language Model Diverse Platform Generalist Model Unified Interface

March 28, 2024

OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition
Jianqiang Wan, Sibo Song, Wenwen Yu, Yuliang Liu, Wenqing Cheng, Fei Huang, Xiang Bai, Cong Yao, Zhibo Yang
Unified Framework Document Parsing Key Information Extraction Visual Text Text Spotting Table Recognition Conditional Text Generation Unified Interface

March 1, 2024

VisionLLaMA: A Unified LLaMA Interface for Vision Tasks
Xiangxiang Chu, Jianlin Su, Bo Zhang, Chunhua Shen
Vision Transformer Vision Paper Vision Task Unified Interface

October 14, 2023

MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning
Jun Chen, Deyao Zhu, Xiaoqian Shen, Xiang Li, Zechun Liu, Pengchuan Zhang, Raghuraman Krishnamoorthi, Vikas Chandra, Yunyang Xiong, Mohamed Elhoseiny
Large Language Model Vision Language Model Visual Question Answering Vision Language Task Unified Interface

August 29, 2023

AskIt: Unified Programming Interface for Programming with Large Language Models
Katsumi Okuda, Saman Amarasinghe
Code Generation Domain Specific Programming Assistance Prompt Design Unified Interface

July 26, 2023

trajdata: A Unified Interface to Multiple Human Trajectory Datasets
Boris Ivanovic, Guanyu Song, Igor Gilitschenski, Marco Pavone
Trajectory Data Trajectory Datasets Unified Interface

May 8, 2023

ASDL: A Unified Interface for Gradient Preconditioning in PyTorch
Kazuki Osawa, Satoki Ishikawa, Rio Yokota, Shigang Li, Torsten Hoefler
Deep Learning Natural Gradient Pytorch Model Adaptive Preconditioner Unified Interface

December 19, 2022

Unified, User and Task (UUT) Centered Artificial Intelligence for Metaverse Edge Computing
Terence Jie Chua, Wenhan Yu, Jun Zhao
Artificial Intelligence Related Task Unified Alignment Ubiquitous Semantic Metaverse Metaverse Application Unified Interface Metaverse Experience Metaverse Edge Computing

June 15, 2022

A Unified Sequence Interface for Vision Tasks
Ting Chen, Saurabh Saxena, Lala Li, Tsung-Yi Lin, David J. Fleet, Geoffrey Hinton
Computer Vision Vision Task Computer Vision Task Task Specific Model Pixel Based Unified Interface