Image Transformer

Image transformers leverage the power of self-attention mechanisms, initially developed for natural language processing, to analyze and manipulate images and videos. Current research focuses on improving efficiency (e.g., through techniques like group-shifted window attention and wavelet transforms), expanding applications (including image restoration, inpainting, generation, and video understanding), and addressing challenges like memory consumption and bias in model outputs. This rapidly evolving field is significantly impacting computer vision, enabling advancements in diverse areas such as medical image analysis, robotic interaction, and creative content generation.

Papers

May 20, 2022

Self-supervised 3D anatomy segmentation using self-distilled masked image transformer (SMIT)
Jue Jiang, Neelam Tyagi, Kathryn Tringale, Christopher Crane, Harini Veeraraghavan
Vision Transformer Pre Trained Vision Transformer Organ Segmentation Anatomical Segmentation Abdominal Organ Segmentation Image Transformer

April 16, 2022

Towards Lightweight Transformer via Group-wise Transformation for Vision-and-Language Tasks
Gen Luo, Yiyi Zhou, Xiaoshuai Sun, Yan Wang, Liujuan Cao, Yongjian Wu, Feiyue Huang, Rongrong Ji
Swin Transformer Vision Language Task Transformer Based Network Image Transformer Lightweight Transformer Transformer XL

April 8, 2022

Underwater Image Enhancement Using Pre-trained Transformer
Abderrahmene Boudiaf, Yuhang Guo, Adarsh Ghimire, Naoufel Werghi, Giulia De Masi, Sajid Javed, Jorge Dias
Underwater Image Underwater Image Enhancement Pre Trained Vision Transformer Transformer Based Approach Image Transformer

March 29, 2022

MatteFormer: Transformer-Based Image Matting via Prior-Tokens
GyuTae Park, SungJoon Son, JaeYoung Yoo, SeHo Kim, Nojun Kwak
Self Attention K TOKEN Image Matting Image Transformer

March 9, 2022

KPE: Keypoint Pose Encoding for Transformer-based Image Generation
Soon Yau Cheong, Armin Mustafa, Andrew Gilbert
Image Token Image Transformer Pose Code Pose Constraint

December 19, 2021

On Efficient Transformer-Based Image Pre-training for Low-Level Vision
Wenbo Li, Xin Lu, Shengju Qian, Jiangbo Lu, Xiangyu Zhang, Jiaya Jia
High Efficiency Multi Task Internal Representation Feature Representation Image Transformer High Level Vision Task Low Level Vision

December 2, 2021

BEVT: BERT Pretraining of Video Transformers
Rui Wang, Dongdong Chen, Zuxuan Wu, Yinpeng Chen, Xiyang Dai, Mengchen Liu, Yu-Gang Jiang, Luowei Zhou, Lu Yuan
Video Representation Video Transformer Pre Trained BERT Video Model Image Transformer