Multi Task Vision Transformer

Multi-task vision transformers (MVTs) aim to improve efficiency and performance in computer vision by training a single model to perform multiple tasks simultaneously, unlike traditional single-task approaches. Current research focuses on developing novel MVT architectures, such as those employing mixture-of-experts for efficient resource allocation and parameter-efficient transfer learning methods to adapt large pre-trained models to various downstream tasks. These advancements are proving valuable in diverse applications, including medical image analysis (e.g., diagnosing intracerebral hemorrhage or screening for myopia), driver behavior monitoring, and scene understanding, demonstrating the potential of MVTs to enhance the speed and accuracy of various computer vision systems.

Papers

December 13, 2024

VibrantVS: A high-resolution multi-task transformer for forest canopy height estimation
Tony Chang, Kiarie Ndegwa, Andreas Gros, Vincent A. Landau, Luke J. Zachmann, Bogdan State, Mitchell A. Gritts, Colton W. Miller, Nathan E. Rutenbeck, Scott Conway, Guy Bayes
Canopy Height Height Estimation Multi Task Transformer Model Benchmark Multi Task Vision Transformer

August 18, 2024

OU-CoViT: Copula-Enhanced Bi-Channel Multi-Task Vision Transformers with Dual Adaptation for OU-UWF Images
Yang Li, Jianing Deng, Chong Zhong, Danjuan Yang, Meiyan Li, A. H. Welsh, Aiyi Liu, Xingtao Zhou, Catherine C. Liu, Bo Fu
Vision Transformer Multi Task Vision Transformer Multi Channel Model

July 18, 2024

Pose-guided multi-task video transformer for driver action recognition
Ricardo Pizarro, Roberto Valle, Luis Miguel Bergasa, José M. Buenaposada, Luis Baumela
Action Recognition Human Pose Vehicle Interaction Spatial Token Driver Action Recognition Multi Task Vision Transformer

May 10, 2024

Dual-Task Vision Transformer for Rapid and Accurate Intracerebral Hemorrhage CT Image Classification
Jialiang Fan, Xinhui Fan, Chengyan Song, Xiaofan Wang, Bingdong Feng, Lucan Li, Guoyu Lu
CT Image Intracerebral Hemorrhage Intracranial Hemorrhage Multi Task Vision Transformer

December 14, 2023

VMT-Adapter: Parameter-Efficient Transfer Learning for Multi-Task Dense Scene Understanding
Yi Xin, Junlong Du, Qiang Wang, Zhiwen Lin, Ke Yan
Task Adaptation Parameter Efficient Transfer Learning Large Scale Pre Trained Model Complex Scene Multi Task Adaptation SAM2 Adapter Multi Task Vision Transformer

September 30, 2023

MVC: A Multi-Task Vision Transformer Network for COVID-19 Diagnosis from Chest X-ray Images
Huyen Tran, Duc Thanh Nguyen, John Yearwood
Vision Transformer New Framework Medical Image Medical Image Analysis Chest X Ray Image COVID 19 Diagnosis Large Scale Medical Multi Task Vision Transformer

May 30, 2023

Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture with Task-level Sparsity via Mixture-of-Experts
Rishov Sarkar, Hanxue Liang, Zhiwen Fan, Zhangyang Wang, Cong Hao
Vision Transformer Computer Vision Multi Task Learning Mixture of Expert ViT Model Dynamic Sparsity Multi Task Vision Transformer

April 18, 2023

AutoTaskFormer: Searching Vision Transformers for Multi-task Learning
Yang Liu, Shen Yan, Yuge Zhang, Kan Ren, Quanlu Zhang, Zebin Ren, Deng Cai, Mi Zhang
Vision Transformer Multi Task Learning Multi Task Vision Transformer

September 19, 2022

ViT-DD: Multi-Task Vision Transformer for Semi-Supervised Driver Distraction Detection
Yunsheng Ma, Ziran Wang
Vision Transformer Emotion Recognition Driver Distraction Computer Vision Technology ViT LoS V2X Multi Task Vision Transformer

Multi Task Vision Transformer

Papers

VibrantVS: A high-resolution multi-task transformer for forest canopy height estimation

OU-CoViT: Copula-Enhanced Bi-Channel Multi-Task Vision Transformers with Dual Adaptation for OU-UWF Images

Pose-guided multi-task video transformer for driver action recognition

Dual-Task Vision Transformer for Rapid and Accurate Intracerebral Hemorrhage CT Image Classification

VMT-Adapter: Parameter-Efficient Transfer Learning for Multi-Task Dense Scene Understanding

MVC: A Multi-Task Vision Transformer Network for COVID-19 Diagnosis from Chest X-ray Images

Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture with Task-level Sparsity via Mixture-of-Experts

AutoTaskFormer: Searching Vision Transformers for Multi-task Learning

ViT-DD: Multi-Task Vision Transformer for Semi-Supervised Driver Distraction Detection