Lightweight Vision Transformer

Lightweight Vision Transformers (ViTs) aim to reduce the computational cost and memory footprint of standard ViTs, making them suitable for resource-constrained devices while maintaining competitive performance. Current research focuses on improving efficiency through novel architectures like latency-aware blocks incorporating convolutions and sparse self-attention, and leveraging pre-training techniques such as masked image modeling and knowledge distillation to enhance performance on limited data. These advancements are significant because they enable the deployment of powerful transformer-based models in mobile and edge computing applications, expanding the reach of advanced computer vision capabilities.

Papers

December 23, 2024

Edge-AI for Agriculture: Lightweight Vision Models for Disease Detection in Resource-Limited Settings
Harsh Joshi
Vision Transformer Segmentation Model Disease Detection Agricultural Domain Edge AI Object Detection Performance Vision Pipeline Lightweight Vision Transformer

April 18, 2024

An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training
Jin Gao, Shubo Lin, Shaoru Wang, Yutong Kou, Zeming Li, Liang Li, Congxuan Zhang, Xiaoqin Zhang, Yizheng Wang, Weiming Hu
Vision Transformer Pre Trained Image Modeling Experimental Study Pre Trained ViT Pre Training Paradigm Lightweight Vision Transformer

April 9, 2024

LIPT: Latency-aware Image Processing Transformer
Junbo Qiao, Wei Li, Haizhen Xie, Hanting Chen, Yunshuai Zhou, Zhijun Tu, Jie Hu, Shaohui Lin
Image Super Resolution Sparse Mask Lightweight Vision Transformer

February 6, 2024

Pre-training of Lightweight Vision Transformers on Small Datasets with Minimally Scaled Images
Jen Hong Tan
Convolutional Neural Network Vision Transformer Small Datasets Low Resolution Auto Encoder Lightweight Vision Transformer Image Scaling Scaled Image

January 22, 2024

OnDev-LCT: On-Device Lightweight Convolutional Transformers towards federated learning
Chu Myaet Thwal, Minh N. H. Nguyen, Ye Lin Tun, Seong Tae Kim, My T. Thai, Choong Seon Hong
Vision Transformer Lightweight CNN Transformer Lightweight Vision Transformer Device Vision Task

July 18, 2023

RepViT: Revisiting Mobile CNN From ViT Perspective
Ao Wang, Hui Chen, Zijia Lin, Jungong Han, Guiguang Ding
Convolutional Neural Network Lightweight CNN Lightweight Convolutional Neural Network Mobile CNN Lightweight Vision Transformer

March 31, 2023

Rethinking Local Perception in Lightweight Vision Transformer
Qihang Fan, Huaibo Huang, Jiyang Guan, Ran He
Vision Transformer Convolution Operator Local Enhancement Lightweight Vision Transformer

May 28, 2022

A Closer Look at Self-Supervised Lightweight Vision Transformers
Shaoru Wang, Jin Gao, Zeming Li, Xiaoqin Zhang, Weiming Hu
Vision Transformer Self Supervised Glance Annotation Pre Training Paradigm Self Supervised Pre Training Method Lightweight Vision Transformer