Mask Transformer

Mask Transformers are a class of deep learning models that leverage the attention mechanism of transformers to perform dense prediction tasks, particularly image segmentation, by predicting labels for entire masks rather than individual pixels. Current research focuses on improving the accuracy and efficiency of these models across diverse applications, including medical image analysis, autonomous driving, and remote sensing, through techniques like incorporating confidence estimations, adaptive masking strategies, and multi-modal data fusion. This approach offers significant advantages in handling complex scenes with occlusions and variations in object appearance, leading to improved performance in various fields compared to traditional methods.

Papers

December 5, 2022

Mask Matching Transformer for Few-Shot Segmentation
Siyu Jiao, Gengwei Zhang, Shant Navasardyan, Ling Chen, Yao Zhao, Yunchao Wei, Humphrey Shi
Segmentation Based Approach Shot Segmentation Segmentation Result Mask Transformer Segmentation Module

November 21, 2022

Mean Shift Mask Transformer for Unseen Object Instance Segmentation
Yangxiao Lu, Yuqiao Chen, Nicholas Ruozzi, Yu Xiang
Segmentation Task Multiple Meaning Mask Transformer Mean Shift Clustering

October 26, 2022

TAMFormer: Multi-Modal Transformer with Learned Attention Mask for Early Intent Prediction
Nada Osman, Guglielmo Camporese, Lamberto Ballan
Intent Prediction Multi Modal Transformer Attention Mask Mask Transformer

October 12, 2022

AISFormer: Amodal Instance Segmentation with Transformer
Minh Tran, Khoa Vo, Kashu Yamazaki, Arthur Fernandes, Michael Kidd, Ngan Le
Transformer Based Mask Guided Mask Transformer Amodal Instance Segmentation

October 6, 2022

Mask3D: Mask Transformer for 3D Semantic Instance Segmentation
Jonas Schult, Francis Engelmann, Alexander Hermans, Or Litany, Siyu Tang, Bastian Leibe
3D Point Cloud 3D Instance Segmentation Mask Transformer Instance Mask Instance Segmentation Method 3D Mask

July 8, 2022

kMaX-DeepLab: k-means Mask Transformer
Qihang Yu, Huiyu Wang, Siyuan Qiao, Maxwell Collins, Yukun Zhu, Hartwig Adam, Alan Yuille, Liang-Chieh Chen
Transformer Architecture Cross Attention Mask Transformer Transformer Based Vision

June 17, 2022

CMT-DeepLab: Clustering Mask Transformers for Panoptic Segmentation
Qihang Yu, Huiyu Wang, Dahun Kim, Siyuan Qiao, Maxwell Collins, Yukun Zhu, Hartwig Adam, Alan Yuille, Liang-Chieh Chen
Panoptic Segmentation Mask Transformer Final Segmentation

May 30, 2022

TubeFormer-DeepLab: Video Mask Transformer
Dahun Kim, Jun Xie, Huiyu Wang, Siyuan Qiao, Qihang Yu, Hong-Seok Kim, Hartwig Adam, In So Kweon, Liang-Chieh Chen
Video Segmentation Segmentation Benchmark Mask Transformer

May 20, 2022

Mask-guided Vision Transformer (MG-ViT) for Few-Shot Learning
Yuzhong Chen, Zhenxiang Xiao, Lin Zhao, Lu Zhang, Haixing Dai, David Weizhong Liu, Zihao Wu, Changhe Li, Tuo Zhang, Changying Li, Dajiang Zhu, Tianming Liu, Xi Jiang
LeArning Abstract Vision Transformer Shot Learning Mask Transformer Shot Sample

March 29, 2022

MAT: Mask-Aware Transformer for Large Hole Image Inpainting
Wenbo Li, Zhe Lin, Kun Zhou, Lu Qi, Yi Wang, Jiaya Jia
Self Attention High Resolution Image Mask Transformer Dynamic Mask Hole Detection