ViT Lens

ViT-Lens research focuses on adapting the strengths of Vision Transformers (ViTs) to diverse data modalities beyond standard images, aiming to create more versatile and powerful AI models. Current work centers on developing efficient methods for projecting various data types (e.g., EEG, 3D point clouds, audio) into a shared representation space processable by pre-trained ViTs, often incorporating novel attention mechanisms or hybrid CNN-ViT architectures. This approach promises to improve the efficiency and generalizability of AI systems across a wider range of applications, particularly in areas like medical imaging, video analysis, and robotics, where multimodal data is prevalent.

ViT Lens

Papers

SP-ViT: Learning 2D Spatial Priors for Vision Transformers

Architecture-Agnostic Masked Image Modeling -- From ViT back to CNN

TBN-ViT: Temporal Bilateral Network with Vision Transformer for Video Scene Parsing