EfficientViT SAM

EfficientViT is a family of vision transformer (ViT) architectures designed to improve the speed and efficiency of various computer vision tasks without sacrificing accuracy. Current research focuses on adapting EfficientViT for applications like satellite image classification, autonomous driving, and the Segment Anything Model (SAM), leveraging its efficiency to enable real-time processing on resource-constrained devices. This work is significant because it addresses the computational limitations of traditional ViTs, making advanced computer vision techniques more accessible for deployment in embedded systems and resource-limited environments. The resulting speed improvements and maintained accuracy are driving advancements in diverse fields.

Papers

September 5, 2024

Onboard Satellite Image Classification for Earth Observation: A Comparative Study of ViT Models
Thanh-Dung Le, Vu Nguyen Ha, Ti Ti Nguyen, Geoffrey Eappen, Prabhu Thiruvasagam, Luis M. Garces-Socarras, Hong-fu Chou, Jorge L. Gonzalez-Rios, Juan Carlos Merlano-Duncan, Symeon Chatzinotas
Convolutional Neural Network Comparative Study Satellite Image Pre Trained Vision Transformer Local Inference EfficientViT SAM

July 3, 2024

Efficient Fusion and Task Guided Embedding for End-to-end Autonomous Driving
Yipin Guo, Yilin Lang, Qinyuan Ren
Autonomous Driving End to End Autonomous Driving Effective Fusion Safety Specification Safety Prediction Task EfficientViT SAM

February 7, 2024

EfficientViT-SAM: Accelerated Segment Anything Model Without Accuracy Loss
Zhuoyang Zhang, Han Cai, Song Han
Segment Anything Model Accuracy Loss ViT Encoder EfficientViT SAM

June 9, 2023

FasterViT: Fast Vision Transformers with Hierarchical Attention
Ali Hatamizadeh, Greg Heinrich, Hongxu Yin, Andrew Tao, Jose M. Alvarez, Jan Kautz, Pavlo Molchanov
Self Attention Hierarchical Attention Fast Vision Transformer EfficientViT SAM

May 11, 2023

EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention
Xinyu Liu, Houwen Peng, Ningxin Zheng, Yuqing Yang, Han Hu, Yixuan Yuan
Vision Transformer Memory Efficient Fast Vision Transformer EfficientViT SAM

May 29, 2022

EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense Prediction
Han Cai, Junyan Li, Muyan Hu, Chuang Gan, Song Han
Large Kernel Convolution Large Scale Vision Model High Resolution Dense Prediction EfficientViT SAM