Masked Image Modeling

Masked Image Modeling (MIM) is a self-supervised learning technique for computer vision that trains models to reconstruct masked portions of images, learning robust visual representations from unlabeled data. Current research focuses on improving MIM's efficiency and effectiveness through architectural innovations like hybrid Transformer-CNN models and refined masking strategies (e.g., saliency-based, symmetric, or structured knowledge-guided masking), often incorporating contrastive learning or knowledge distillation. This approach significantly advances self-supervised learning, enabling high-performance on various downstream tasks such as image classification, object detection, and semantic segmentation, particularly in data-scarce domains like remote sensing and medical imaging.

Papers

March 9, 2023

Masked Image Modeling with Local Multi-Scale Reconstruction
Haoqing Wang, Yehui Tang, Yunhe Wang, Jianyuan Guo, Zhi-Hong Deng, Kai Han
Multi Scale Self Supervised Representation Learning Masked Image Modeling

March 8, 2023

Centroid-centered Modeling for Efficient Vision Transformer Pre-training
Xin Yan, Zuchao Li, Lefei Zhang, Bo Du, Dacheng Tao
Vision Transformer Self Supervised Masked Image Modeling Pre Trained Vision Transformer Discrete Token Centroid Encoder

March 4, 2023

PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling
Yuan Liu, Songyang Zhang, Jiacheng Chen, Kai Chen, Dahua Lin
Masked Autoencoders Masked Image Modeling Pixel Reconstruction

February 28, 2023

Remote Sensing Scene Classification with Masked Image Modeling (MIM)
Liya Wang, Alex Tien
Vision Transformer Masked Image Modeling Pre Trained Vision Transformer Scene Classification Remote Sensing Scene Classification

February 27, 2023

Layer Grafted Pre-training: Bridging Contrastive Learning And Masked Image Modeling For Label-Efficient Representations
Ziyu Jiang, Yinpeng Chen, Mengchen Liu, Dongdong Chen, Xiyang Dai, Lu Yuan, Zicheng Liu, Zhangyang Wang
Contrastive Learning Pre Trained Masked Image Modeling ImageNet 1k

January 17, 2023

RILS: Masked Visual Reconstruction in Language Semantic Space
Shusheng Yang, Yixiao Ge, Kun Yi, Dian Li, Ying Shan, Xiaohu Qie, Xinggang Wang
Pre Trained Visual Representation Masked Image Modeling Semantic Space Language Supervision Semantic Reconstruction Visual Reconstruction

December 31, 2022

Disjoint Masking with Joint Distillation for Efficient Masked Image Modeling
Xin Ma, Chang Liu, Chunyu Xie, Long Ye, Yafeng Deng, Xiangyang Ji
Self Supervised Learning Image Modeling Masked Image Modeling Masking Strategy Masked Image Joint Distillation

November 18, 2022

$\alpha$ DARTS Once More: Enhancing Differentiable Architecture Search by Masked Image Modeling
Bicheng Guo, Shuxuan Guo, Miaojing Shi, Peng Chen, Shibo He, Jiming Chen, Kaicheng Yu
Supervised ImageNet Image Modeling Patch Based Masked Image Modeling Differentiable Architecture Search

November 17, 2022

CAE v2: Context Autoencoder with CLIP Target
Xinyu Zhang, Jiahui Chen, Junkun Yuan, Qiang Chen, Jian Wang, Xiaodi Wang, Shumin Han, Xiaokang Chen, Jimin Pi, Kun Yao, Junyu Han, Errui Ding, Jingdong Wang
Single CLIP Image Modeling Masked Image Modeling CLIP Level CLIP Representation Mask Wearing Ratio Context Autoencoder

November 16, 2022

Stare at What You See: Masked Image Modeling without Reconstruction
Hongwei Xue, Peng Gao, Hongyang Li, Yu Qiao, Hao Sun, Houqiang Li, Jiebo Luo
Full State Reconstruction Vision Model Masked Autoencoders Image Modeling Masked Image Modeling Provider Gaze

November 1, 2022

RGMIM: Region-Guided Masked Image Modeling for Learning Meaningful Representations from X-Ray Images
Guang Li, Ren Togo, Takahiro Ogawa, Miki Haseyama
Medical Image Latent Representation X Ray Image Masked Image Modeling Lung Texture

October 20, 2022

October 19, 2022

October 4, 2022

Backdoor Attacks in the Supply Chain of Masked Image Modeling
Xinyue Shen, Xinlei He, Zheng Li, Yun Shen, Michael Backes, Yang Zhang
Self Supervised Learning Backdoor Attack Image Modeling Masked Image Modeling Supply Chain

August 24, 2022

A Deep Learning Approach Using Masked Image Modeling for Reconstruction of Undersampled K-spaces
Kyler Larsen, Arghya Pal, Yogesh Rathi
Full State Reconstruction Deep Learning Approach Masked Image Modeling Magnetic Resonance Image K Space Magnetic Resonance Image Reconstruction

August 8, 2022

Understanding Masked Image Modeling via Learning Occlusion Invariant Feature
Xiangwen Kong, Xiangyu Zhang
Vision Transformer Siamese Network Image Modeling Masked Image Modeling

June 9, 2022

On Data Scaling in Masked Image Modeling
Zhenda Xie, Zheng Zhang, Yue Cao, Yutong Lin, Yixuan Wei, Qi Dai, Han Hu
Self Supervised Learning Pre Trained Model Large Model Image Modeling Masked Image Modeling Data Scaling

June 2, 2022

Siamese Image Modeling for Self-Supervised Vision Representation Learning
Chenxin Tao, Xizhou Zhu, Weijie Su, Gao Huang, Bin Li, Jie Zhou, Yu Qiao, Xiaogang Wang, Jifeng Dai
Self Supervised Siamese Network Masked Image Modeling Self Supervised Visual Representation