ViT Lens

ViT-Lens research focuses on adapting the strengths of Vision Transformers (ViTs) to diverse data modalities beyond standard images, aiming to create more versatile and powerful AI models. Current work centers on developing efficient methods for projecting various data types (e.g., EEG, 3D point clouds, audio) into a shared representation space processable by pre-trained ViTs, often incorporating novel attention mechanisms or hybrid CNN-ViT architectures. This approach promises to improve the efficiency and generalizability of AI systems across a wider range of applications, particularly in areas like medical imaging, video analysis, and robotics, where multimodal data is prevalent.

Papers

September 22, 2023

ViT-MDHGR: Cross-day Reliability and Agility in Dynamic Hand Gesture Prediction via HD-sEMG Signal Decoding
Qin Hu, Golara Ahmadi Azar, Alyson Fletcher, Sundeep Rangan, S. Farokh Atashzar
Hand Gesture Recognition Surface Electromyography ViT Lens sEMG Signal Animal Level Agility Myoelectric Control HD sEMG

September 12, 2023

Exploring Non-additive Randomness on ViT against Query-Based Black-Box Attacks
Jindong Gu, Fangyun Wei, Philip Torr, Han Hu
Deep Neural Network Vision Transformer Native Robustness Black Box Attack ViT Lens Stochastic Defense Non Additive

August 20, 2023

ViT-Lens: Initiating Omni-Modal Exploration through 3D Insights
Weixian Lei, Yixiao Ge, Jianfeng Zhang, Dylan Sun, Kun Yi, Ying Shan, Mike Zheng Shou
Vision Language Model Multimodal Representation Modality Specific ViT Lens 3D Information

June 12, 2023

When Vision Fails: Text Attacks Against ViT and OCR
Nicholas Boucher, Jenny Blessing, Ilia Shumailov, Ross Anderson, Nicolas Papernot
Adversarial Example Vision Paper Visual Input Gallery Style OCR ViT Lens Text Attack Text Based Model

May 22, 2023

May 21, 2023

Bi-ViT: Pushing the Limit of Vision Transformer Quantization
Yanjing Li, Sheng Xu, Mingbao Lin, Xianbin Cao, Chuanjian Liu, Xiao Sun, Baochang Zhang
Vision Transformer Supervised ImageNet Continuum Limit ViT Lens Large Pre Trained Vision Transformer Quantization Binary Vision Transformer

May 5, 2023

FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing
Ajian Liu, Zichang Tan, Zitong Yu, Chenxu Zhao, Jun Wan, Yanyan Liang, Zhen Lei, Du Zhang, Stan Z. Li, Guodong Guo
Vision Transformer Multi Modal Fusion Face Anti Spoofing ViT Lens Face Presentation Attack Detection Cross Modal Transformer

April 29, 2023

Instruction-ViT: Multi-Modal Prompts for Instruction Learning in ViT
Zhenxiang Xiao, Yuzhong Chen, Lu Zhang, Junjie Yao, Zihao Wu, Xiaowei Yu, Yi Pan, Lin Zhao, Chong Ma, Xinyu Liu, Wei Liu, Xiang Li, Yixuan Yuan, Dinggang Shen, Dajiang Zhu, Tianming Liu, Xi Jiang
Transformer Model Vision Model ViT Lens Image Classification Model Multi Modal PromPt Instruction Learning

April 20, 2023

HM-ViT: Hetero-modal Vehicle-to-Vehicle Cooperative perception with vision transformer
Hao Xiang, Runsheng Xu, Jiaqi Ma
Vision Transformer Cooperative Perception ViT Lens Multi Agent Collaborative Perception Vehicle to Vehicle V2X Perception

April 15, 2023

MA-ViT: Modality-Agnostic Vision Transformers for Face Anti-Spoofing
Ajian Liu, Yanyan Liang
Vision Transformer Face Anti Spoofing ViT Lens Liveness Detection Modality Aware Transformer Modality Aware

January 18, 2023

ViT-AE++: Improving Vision Transformer Autoencoder for Self-supervised Medical Image Representations
Chinmay Prabhakar, Hongwei Bran Li, Jiancheng Yang, Suprosana Shit, Benedikt Wiestler, Bjoern Menze
Self Supervised Learning Transformer Based Supervised Autoencoder Contrastive Loss ViT Lens Self Supervised Medical Deeper ViT S 54

December 27, 2022

A Generalization of ViT/MLP-Mixer to Graphs
Xiaoxin He, Bryan Hooi, Thomas Laurent, Adam Perold, Yann LeCun, Xavier Bresson
Graph Neural Network Strong Generalization Graph Drawing Graph Representation Learning Graph Transformer ViT Lens Expressive GNN

December 12, 2022

CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1 Accuracy with ViT-B and ViT-L on ImageNet
Xiaoyi Dong, Jianmin Bao, Ting Zhang, Dongdong Chen, Shuyang Gu, Weiming Zhang, Lu Yuan, Dong Chen, Fang Wen, Nenghai Yu
Zero Shot Fine Tuning Supervised ImageNet ViT Lens Deeper ViT S 54

November 18, 2022

Castling-ViT: Compressing Self-Attention via Switching Towards Linear-Angular Attention at Vision Transformer Inference
Haoran You, Yunyang Xiong, Xiaoliang Dai, Bichen Wu, Peizhao Zhang, Haoqi Fan, Peter Vajda, Yingyan Lin
Vision Transformer Self Attention Softmax Attention ViT Lens Transformer Inference Linear Angular Attention

November 1, 2022

ViT-DeiT: An Ensemble Model for Breast Cancer Histopathological Images Classification
Amira Alotaibi, Tarik Alafif, Faris Alkhilaiwi, Yasser Alatawi, Hassan Althobaiti, Abdulmajeed Alrefaei, Yousef M Hawsawi, Tin Nguyen
Vision Transformer Histopathological Image Ensemble Model Pre Trained Vision Transformer ViT Lens Breast Cancer Histopathological Image Classification

October 23, 2022

UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision Transformer for Face Forgery Detection
Wanyi Zhuang, Qi Chu, Zhentao Tan, Qiankun Liu, Haojie Yuan, Changtao Miao, Zixiang Luo, Nenghai Yu
Vision Transformer Pixel Level Annotation Face Forgery Detection ViT Lens Inconsistency Detection Consistent Representation Learning

October 17, 2022

Token Merging: Your ViT But Faster
Daniel Bolya, Cheng-Yang Fu, Xiaoliang Dai, Peizhao Zhang, Christoph Feichtenhofer, Judy Hoffman
Transformer Based ViT Lens ViT Model Token Merging

August 12, 2022

When CNN Meet with ViT: Towards Semi-Supervised Learning for Multi-Class Medical Image Semantic Segmentation
Ziyang Wang, Tianze Li, Jian-Qing Zheng, Baoru Huang
Vision Transformer Semi Supervised Learning Semi Supervised CNN Network Semi Supervised Medical Image Segmentation ViT Lens

July 12, 2022

Next-ViT: Next Generation Vision Transformer for Efficient Deployment in Realistic Industrial Scenarios
Jiashi Li, Xin Xia, Wei Li, Huixia Li, Xing Wang, Xuefeng Xiao, Rui Wang, Min Zheng, Xin Pan
Convolutional Neural Network Vision Transformer Hybrid CNN Transformer ViT Lens Efficient Deployment Industrial Scenario