Masked Autoencoders

Masked autoencoders (MAEs) are a self-supervised learning technique that learns robust image representations by reconstructing masked portions of an image. Current research focuses on adapting MAEs for various data modalities (images, point clouds, audio, 3D data) and downstream tasks (classification, segmentation, object detection), often incorporating architectural enhancements like Vision Transformers and exploring different masking strategies beyond random masking to improve efficiency and performance. The resulting pre-trained models offer significant advantages in scenarios with limited labeled data, impacting fields like Earth observation, medical image analysis, and robotics through improved accuracy and reduced computational demands.

Papers

June 21, 2022

SemMAE: Semantic-Guided Masking for Learning Masked Autoencoders
Gang Li, Heliang Zheng, Daqing Liu, Chaoyue Wang, Bing Su, Changwen Zheng
Semantic Segmentation Self Supervised Masked Autoencoders Auto Encoder Model Masking Strategy Erase Based Masking

June 20, 2022

Occupancy-MAE: Self-supervised Pre-training Large-scale LiDAR Point Clouds with Masked Occupancy Autoencoders
Chen Min, Xinli Xu, Dawei Zhao, Liang Xiao, Yiming Nie, Bin Dai
Point Cloud Self Supervised 3D Object Detection Masked Autoencoders Large Scale LiDAR Point Cloud

June 17, 2022

Masked Autoencoders for Generic Event Boundary Detection CVPR'2022 Kinetics-GEBD Challenge
Rui He, Yuanxi Sun, Youzeng Li, Zuwei Huang, Feng Hu, Xu Cheng, Jie Tang
Masked Autoencoders Generic Event Boundary Detection

June 10, 2022

Masked Autoencoders are Robust Data Augmentors
Haohang Xu, Shuangrui Ding, Xiaopeng Zhang, Hongkai Xiong, Qi Tian
Data Augmentation Supervised Autoencoder Masked Autoencoders Image Modeling Image Augmentation Robust Data

May 28, 2022

May 23, 2022

FaceMAE: Privacy-Preserving Face Recognition via Masked Autoencoders
Kai Wang, Bo Zhao, Xiangyu Peng, Zheng Zhu, Jiankang Deng, Xinchao Wang, Hakan Bilen, Yang You
Face Recognition Masked Autoencoders Privacy Protection Face Image Datasets Privacy Preserving Face

May 20, 2022

Uniform Masking: Enabling MAE Pre-training for Pyramid-based Vision Transformers with Locality
Xiang Li, Wenhai Wang, Lingfeng Yang, Jian Yang
Masked Autoencoders Visual Token Masked AutoEncoder Vanilla Transformer Pyramid Vision Transformer

May 18, 2022

Masked Autoencoders As Spatiotemporal Learners
Christoph Feichtenhofer, Haoqi Fan, Yanghao Li, Kaiming He
Supervised Autoencoder Masked Autoencoders Spatiotemporal Representation Auto Encoder Model Random Masking Spatiotemporal Learning

May 10, 2022

May 8, 2022

ConvMAE: Masked Convolution Meets Masked Autoencoders
Peng Gao, Teli Ma, Hongsheng Li, Ziyi Lin, Jifeng Dai, Yu Qiao
Multi Scale Direct Convolution Masked Autoencoders

April 26, 2022

Masked Spectrogram Modeling using Masked Autoencoders for Learning General-purpose Audio Representation
Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Kunio Kashino
Masked Autoencoders Audio Representation Mel Spectrogram Contrastive Audio

March 30, 2022

MAE-AST: Masked Autoencoding Audio Spectrogram Transformer
Alan Baade, Puyuan Peng, David Harwath
Masked Autoencoders Audio Classification Encoder Decoder Architecture Audio Spectrogram Transformer Deep Encoder

March 23, 2022

VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training
Zhan Tong, Yibing Song, Jue Wang, Limin Wang
Supervised Autoencoder Masked Autoencoders Video Representation Data Efficient

March 13, 2022

Masked Autoencoders for Point Cloud Self-supervised Learning
Yatian Pang, Wenxiao Wang, Francis E. H. Tay, Wei Liu, Yonghong Tian, Li Yuan
Supervised Autoencoder Masked Autoencoders Input Point Cloud Auto Encoder Model

March 10, 2022

Self Pre-training with Masked Autoencoders for Medical Image Classification and Segmentation
Lei Zhou, Huidong Liu, Joseph Bae, Junjun He, Dimitris Samaras, Prateek Prasanna
Segmentation Based Approach Medical Image Classification Masked Autoencoders Pre Trained Vision Transformer Masked AutoEncoder Self Information Large Scale Medical Medical Imaging Task

February 8, 2022

How to Understand Masked Autoencoders
Shuhao Cao, Peng Xu, David A. Clifton
Masked Autoencoders Auto Encoder Model Patch Attention Scalable Vision

November 11, 2021

Masked Autoencoders Are Scalable Vision Learners
Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dollár, Ross Girshick
Supervised Autoencoder Latent Representation Masked Autoencoders Encoder Decoder Large Scale Self Supervised Scalable Vision

Masked Autoencoders

Papers

SemMAE: Semantic-Guided Masking for Learning Masked Autoencoders

Occupancy-MAE: Self-supervised Pre-training Large-scale LiDAR Point Clouds with Masked Occupancy Autoencoders

Masked Autoencoders for Generic Event Boundary Detection CVPR'2022 Kinetics-GEBD Challenge

Masked Autoencoders are Robust Data Augmentors

SupMAE: Supervised Masked Autoencoders Are Efficient Vision Learners

Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud Pre-training

Object-wise Masked Autoencoders for Fast Pre-training

FaceMAE: Privacy-Preserving Face Recognition via Masked Autoencoders

Uniform Masking: Enabling MAE Pre-training for Pyramid-based Vision Transformers with Locality

Masked Autoencoders As Spatiotemporal Learners

Multiplexed Immunofluorescence Brain Image Analysis Using Self-Supervised Dual-Loss Adaptive Masked Autoencoder

Domain Invariant Masked Autoencoders for Self-supervised Learning from Multi-domains

ConvMAE: Masked Convolution Meets Masked Autoencoders

Masked Spectrogram Modeling using Masked Autoencoders for Learning General-purpose Audio Representation

MAE-AST: Masked Autoencoding Audio Spectrogram Transformer

VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training

Masked Autoencoders for Point Cloud Self-supervised Learning

Self Pre-training with Masked Autoencoders for Medical Image Classification and Segmentation

How to Understand Masked Autoencoders

Masked Autoencoders Are Scalable Vision Learners