Large Vision Model

Large vision models (LVMs) are deep learning systems designed to process and understand visual information, aiming to achieve human-level performance on diverse computer vision tasks. Current research focuses on improving LVM efficiency through techniques like progressive learning and parameter-efficient fine-tuning, as well as exploring their application in various domains, including autonomous driving, medical image analysis, and agriculture, often leveraging architectures such as Vision Transformers and diffusion models. The development of LVMs is significantly impacting the field by enabling advancements in tasks requiring complex visual reasoning and reducing the need for extensive labeled data through techniques like in-context learning and zero-shot capabilities.

Papers

January 2, 2024

SSP: A Simple and Safe automatic Prompt engineering method towards realistic image synthesis on LVM
Weijin Cheng, Jianzhi Liu, Jiawen Deng, Fuji Ren
Image Synthesis Prompt Engineering Large Vision Model

December 23, 2023

Pre-trained Trojan Attacks for Visual Recognition
Aishan Liu, Xinwei Zhang, Yisong Xiao, Yuguang Zhou, Siyuan Liang, Jiakai Wang, Xianglong Liu, Xiaochun Cao, Dacheng Tao
Backdoor Attack Vision Task Visual Recognition Backdoor Trigger Large Vision Model Trojan Attack

December 16, 2023

SA$^2$VP: Spatially Aligned-and-Adapted Visual Prompt
Wenjie Pei, Tongqi Xia, Fanglin Chen, Jinsong Li, Jiandong Tian, Guangming Lu
Fine Grained Visual Prompt Large Vision Model Lung VAE Visual Prompt Tuning Image Token Prompt Token

December 4, 2023

Visual Encoders for Data-Efficient Imitation Learning in Modern Video Games
Lukas Schäfer, Logan Jones, Anssi Kanervisto, Yuhan Cao, Tabish Rashid, Raluca Georgescu, Dave Bignell, Siddhartha Sen, Andrea Treviño Gavito, Sam Devlin
Feature Imitation Video Game Large Vision Model Visual Encoder Sequential Decision Making Training Agent

December 1, 2023

Sequential Modeling Enables Scalable Learning for Large Vision Models
Yutong Bai, Xinyang Geng, Karttikeya Mangalam, Amir Bar, Alan Yuille, Trevor Darrell, Jitendra Malik, Alexei A Efros
Semantic Segmentation Vision Task Visual Data Large Vision Model Sequential Model Scalable Learning

November 28, 2023

Large Model Based Referring Camouflaged Object Detection
Shupeng Cheng, Ge-Peng Ji, Pengda Qin, Deng-Ping Fan, Bowen Zhou, Peng Xu
Large Vision Model Camouflaged Object Detection Prey Camouflage

November 22, 2023

Self-guided Few-shot Semantic Segmentation for Remote Sensing Imagery Based on Large Vision Models
Xiyu Qi, Yifan Wu, Yongqiang Mao, Wenhui Zhang, Yidan Zhang
Remote Sensing Image Segmentation Result Visual Prompting Large Vision Model Shot Semantic Segmentation

November 10, 2023

Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
Bin Xiao, Haiping Wu, Weijian Xu, Xiyang Dai, Houdong Hu, Yumao Lu, Michael Zeng, Ce Liu, Lu Yuan
Vision Task Vision Language Task Vision Foundation Model Large Vision Model Unified Representation Image Annotation Wide Variety

November 3, 2023

Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud Segmentation
Shichao Dong, Fayao Liu, Guosheng Lin
Foundation Model 3D Scene Understanding Large Vision Model Semantic Mask Zero Shot Segmentation Foundational Vision Model

October 10, 2023

A General Protocol to Probe Large Vision Models for 3D Physical Understanding
Guanqi Zhan, Chuanxia Zheng, Weidi Xie, Andrew Zisserman
Large Vision Model Scene Geometry Population Protocol 3D Understanding Diffusion Feature

July 11, 2023

$\mathrm{SAM^{Med}}$: A medical image annotation framework based on large vision model
Chenglong Wang, Dexuan Li, Sucheng Wang, Chengxiu Zhang, Yida Wang, Yun Liu, Guang Yang
Medical Image Segmentation Performance Large Vision Model Promptable Segmentation Downstream Medical

July 3, 2023

Review of Large Vision Models and Visual Prompt Engineering
Jiaqi Wang, Zhengliang Liu, Lin Zhao, Zihao Wu, Chong Ma, Sigang Yu, Haixing Dai, Qiushi Yang, Yiheng Liu, Songyao Zhang, Enze Shi, Yi Pan, Tuo Zhang, Dajiang Zhu, Xiang Li, Xi Jiang, Bao Ge, Yixuan Yuan, Dinggang Shen, Tianming Liu, Shu Zhang
Narrative Review Prompt Engineering Artificial General Intelligence Large Vision Model

June 26, 2023

ParameterNet: Parameters Are All You Need
Kai Han, Yunhe Wang, Jianyuan Guo, Enhua Wu
Vision Model Many Parameter Large Vision Model Parameterized Network

June 8, 2023

Artificial General Intelligence for Medical Imaging Analysis
Xiang Li, Lin Zhao, Lu Zhang, Zihao Wu, Zhengliang Liu, Hanqi Jiang, Chao Cao, Shaochen Xu, Yiwei Li, Haixing Dai, Yixuan Yuan, Jun Liu, Gang Li, Dajiang Zhu, Pingkun Yan, Quanzheng Li, Wei Liu, Tianming Liu, Dinggang Shen
Large Multimodal Model Medical Imaging Artificial General Intelligence Large Vision Model

June 4, 2023

USD: Unknown Sensitive Detector Empowered by Decoupled Objectness and Segment Anything Model
Yulin He, Wei Chen, Yusong Tan, Siqi Wang
Segment Anything Model Large Vision Model Open World Object Unknown Detection Multimodal Enhanced Objectness Learner Object Estimation

March 27, 2023

GeoNet: Benchmarking Unsupervised Adaptation across Geographies
Tarun Kalluri, Wangdong Xu, Manmohan Chandraker
Large Vision Model Unsupervised Adaptation Temporal Robustness

March 25, 2023

Vision Models Can Be Efficiently Specialized via Few-Shot Task-Aware Compression
Denis Kuznedelev, Soroush Tabesh, Kimia Noorbakhsh, Elias Frantar, Sara Beery, Eldar Kurtic, Dan Alistarh
Vision Model Large Vision Model Generalist Model Accurate Model Task Agnostic Compression

March 18, 2023

DC-CCL: Device-Cloud Collaborative Controlled Learning for Large Vision Models
Yucheng Ding, Chaoyue Niu, Fan Wu, Shaojie Tang, Chengfei Lyu, Guihai Chen
Large Vision Model Device Cloud Collaborative Cloud Collaborative Learning

March 9, 2023

From Visual Prompt Learning to Zero-Shot Transfer: Mapping Is All You Need
Ziqing Yang, Zeyang Sha, Michael Backes, Yang Zhang
Area MaPPing Formality Transfer Visual Prompt Large Vision Model Zero Shot Transfer

February 16, 2023

Towards Efficient Visual Adaption via Structural Re-parameterization
Gen Luo, Minglang Huang, Yiyi Zhou, Xiaoshuai Sun, Guannan Jiang, Zhiyu Wang, Rongrong Ji
Vision Model Large Vision Model Large Scale Pre Trained Model Parameter Efficient Transfer Visual Adaptation Structural Re Parameterization