Masked Autoencoders

Masked autoencoders (MAEs) are a self-supervised learning technique that learns robust image representations by reconstructing masked portions of an image. Current research focuses on adapting MAEs for various data modalities (images, point clouds, audio, 3D data) and downstream tasks (classification, segmentation, object detection), often incorporating architectural enhancements like Vision Transformers and exploring different masking strategies beyond random masking to improve efficiency and performance. The resulting pre-trained models offer significant advantages in scenarios with limited labeled data, impacting fields like Earth observation, medical image analysis, and robotics through improved accuracy and reduced computational demands.

Papers

November 16, 2022

Stare at What You See: Masked Image Modeling without Reconstruction
Hongwei Xue, Peng Gao, Hongyang Li, Yu Qiao, Hao Sun, Houqiang Li, Jiebo Luo
Full State Reconstruction Vision Model Masked Autoencoders Image Modeling Masked Image Modeling Provider Gaze

October 27, 2022

Masked Autoencoders Are Articulatory Learners
Ahmed Adel Attia, Carol Espy-Wilson
Masked Autoencoders Articulatory Signal Articulatory Synthesis Articulatory Data

October 26, 2022

Masked Modeling Duo: Learning Representations by Encouraging Both Networks to Model the Input
Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Kunio Kashino
Full Model Representation Learning Network Programming Masked Autoencoders Audio Representation Rich Input Feature Encoding Mask Pair Target Representation Momentum Encoder

October 23, 2022

Delving into Masked Autoencoders for Multi-Label Thorax Disease Classification
Junfei Xiao, Yutong Bai, Alan Yuille, Zongwei Zhou
Convolutional Neural Network Vision Transformer Masked Autoencoders Pre Trained Vision Transformer

October 20, 2022

i-MAE: Are Latent Representations in Masked Autoencoders Linearly Separable?
Kevin Zhang, Zhiqiang Shen
Latent Representation Masked Autoencoders Sce Mae

October 15, 2022

How Mask Matters: Towards Theoretical Understandings of Masked Autoencoders
Qi Zhang, Yifei Wang, Yisen Wang
Contrastive Learning Masked Autoencoders Theoretical Analysis Mask Frozen DETR Mask Pair Mask Wearing Ratio

October 13, 2022

Exploring Long-Sequence Masked Autoencoders
Ronghang Hu, Shoubhik Debnath, Saining Xie, Xinlei Chen
Sequence to Sequence Masked Autoencoders Pre Trained Representation

October 10, 2022

October 9, 2022

Self-supervised Video Representation Learning with Motion-Aware Masked Autoencoders
Haosen Yang, Deng Huang, Bin Wen, Jiannan Wu, Hongxun Yao, Yi Jiang, Xiatian Zhu, Zehuan Yuan
Masked Autoencoders Spatiotemporal Representation Self Supervised Video Representation Video Masked Motion Aware

October 4, 2022

MTSMAE: Masked Autoencoders for Multivariate Time-Series Forecasting
Peiwang Tang, Xianchao Zhang
Supervised Autoencoder Time Series Forecasting Multivariate Time Series Masked Autoencoders Self Supervised Transformer

September 15, 2022

Test-Time Training with Masked Autoencoders
Yossi Gandelsman, Yu Sun, Xinlei Chen, Alexei A. Efros
Strong Generalization Supervised Autoencoder Self Supervision Masked Autoencoders One Class Classification Test Time Training

September 8, 2022

Exploring Target Representations for Masked Autoencoders
Xingbin Liu, Jinghao Zhou, Tao Kong, Xianming Lin, Rongrong Ji
Supervised Autoencoder Masked Autoencoders Self Supervised Visual Representation Target Representation

September 4, 2022

Multi-modal Masked Autoencoders Learn Compositional Histopathological Representations
Wisdom Oluchi Ikezogwo, Mehmet Saygin Seyfioglu, Linda Shapiro
Digital Pathology Masked Autoencoders Histopathological Image Multi Modal Masked Autoencoders Histopathology Representation Learning

August 25, 2022

Masked Autoencoders Enable Efficient Knowledge Distillers
Yutong Bai, Zeyu Wang, Junfei Xiao, Chen Wei, Huiyu Wang, Alan Yuille, Yuyin Zhou, Cihang Xie
Knowledge Distillation Pre Trained Model Masked Autoencoders Low Temperature Distillation ImageNet Accuracy

July 30, 2022

July 24, 2022

MAR: Masked Autoencoders for Efficient Action Recognition
Zhiwu Qing, Shiwei Zhang, Ziyuan Huang, Xiang Wang, Yuehuan Wang, Yiliang Lv, Changxin Gao, Nong Sang
Action Recognition Masked Autoencoders Video Recognition Video Model Vanilla Transformer Temporal Redundancy Action Masking

July 13, 2022

Masked Autoencoders that Listen
Po-Yao Huang, Hu Xu, Juncheng Li, Alexei Baevski, Michael Auli, Wojciech Galuba, Florian Metze, Christoph Feichtenhofer
Masked Autoencoders Audio Spectrogram Video Masked Input Spectrogram