Transformer Encoder

Transformer encoders are neural network architectures designed to process sequential data by leveraging self-attention mechanisms to capture long-range dependencies between input elements. Current research focuses on improving efficiency, particularly for large-scale applications, through techniques like sparsification, hierarchical representations, and dynamic depth adjustments, often within the context of specific model architectures such as Vision Transformers (ViTs) and variations of the Conformer. These advancements are driving progress in diverse fields, including image and video processing, speech recognition, medical image analysis, and autonomous driving, by enabling more robust and efficient solutions to complex tasks.

Papers

April 5, 2023

METransformer: Radiology Report Generation by Transformer with Multiple Learnable Expert Tokens
Zhanyu Wang, Lingqiao Liu, Lei Wang, Luping Zhou
Transformer Based Radiology Report Generation Transformer Encoder Multi Expert Token Expert Combination

March 21, 2023

Machine Learning for Brain Disorders: Transformers and Visual Transformers
Robin Courant, Maika Edberg, Nicolas Dufour, Vicky Kalogeiton
Machine Learning Vision Transformer Transformer Megatron Decepticons Transformer Architecture Transformer Encoder Brain Disorder

March 16, 2023

Facial Affect Recognition based on Transformer Encoder and Audiovisual Fusion for the ABAW5 Challenge
Ziyang Zhang, Liuwei An, Zishun Cui, Ao xu, Tengteng Dong, Yueqi Jiang, Jingyi Shi, Xin Liu, Xiao Sun, Meng Wang
Transformer Encoder Emotion Intensity Expression Classification Audio Visual Fusion ABAW Challenge Facial Affect Emotional Reaction Intensity

March 14, 2023

I3D: Transformer architectures with input-dependent dynamic depth for speech recognition
Yifan Peng, Jaesong Lee, Shinji Watanabe
Transformer Based Speech Recognition End to End Transformer Encoder Compressed Model Deep Encoder Adaptive Depth

March 13, 2023

Transformer Encoder with Multiscale Deep Learning for Pain Classification Using Physiological Signals
Zhenyuan Lu, Burcu Ozek, Sagar Kamarthi
Physiological Signal Transformer Encoder Pain Intensity Pain Dataset Pain Classification

February 20, 2023

FormerTime: Hierarchical Multi-Scale Representations for Multivariate Time Series Classification
Mingyue Cheng, Qi Liu, Zhiding Liu, Zhi Li, Yucong Luo, Enhong Chen
Temporal Attention Hierarchical Representation Transformer Encoder Multi Scale Representation Multivariate Time Series Classification Late Time

January 20, 2023

Towards Robust Video Instance Segmentation with Temporal-Aware Transformer
Zhenghao Zhang, Fangtao Shao, Zuozhuo Dai, Siyu Zhu
Temporal Feature Video Instance Segmentation Transformer Encoder Time Transformer

January 11, 2023

NarrowBERT: Accelerating Masked Language Model Pretraining and Inference
Haoxin Li, Phillip Keung, Daniel Cheng, Jungo Kasai, Noah A. Smith
Language Model Scientific Inference Masked Language Transformer Encoder Scale Pre Trained Language Model

January 9, 2023

Transformers as Policies for Variable Action Environments
Niklas Zwingenberger
Transformer Megatron Decepticons Pre Trained Model Proximal Policy Optimization Transformer Encoder Prior Policy

November 15, 2022

YORO -- Lightweight End to End Visual Grounding
Chih-Hui Ho, Srikar Appalaraju, Bhavan Jasani, R. Manmatha, Nuno Vasconcelos
Visual Grounding Lightweight High Transformer Encoder Multi Modal Transformer Alignment Loss

November 9, 2022

SG-Shuffle: Multi-aspect Shuffle Transformer for Scene Graph Generation
Anh Duc Bui, Soyeon Caren Han, Josiah Poon
Scene Graph Scene Graph Generation Semantic Relation Transformer Encoder Shuffle Model

October 29, 2022

Pair DETR: Contrastive Learning Speeds Up DETR Training
Seyed Mehdi Iranmanesh, Xiaotong Chen, Kuo-Chin Lien
Contrastive Learning Representation Learning Object Detection Transformer Encoder DETR Training Decoder Architecture

October 21, 2022

Boosting vision transformers for image retrieval
Chull Hwan Song, Jooyoung Yoon, Shunghyun Choi, Yannis Avrithis
Convolutional Neural Network Vision Transformer Instance Level Transformer Encoder Image Level Representation

October 6, 2022

WakeUpNet: A Mobile-Transformer based Framework for End-to-End Streaming Voice Trigger
Zixing Zhang, Thorin Farnsworth, Senling Lin, Salah Karout
New Framework Transformer Encoder Wake Word Voice Trigger

September 28, 2022

UNesT: Local Spatial Representation Learning with Hierarchical Transformer for Efficient Medical Segmentation
Xin Yu, Qi Yang, Yinchi Zhou, Leon Y. Cai, Riqiang Gao, Ho Hin Lee, Thomas Li, Shunxing Bao, Zhoubing Xu, Thomas A. Lasko, Richard G. Abramson, Zizhao Zhang, Yuankai Huo, Bennett A. Landman, Yucheng Tang
Vision Transformer Medical Image Segmentation 3D Medical Image Segmentation Hierarchical Transformer Transformer Encoder Whole Brain Segmentation

September 19, 2022

NIERT: Accurate Numerical Interpolation through Unifying Scattered Data Representations using Transformer Encoder
Shizhe Ding, Boyang Xia, Milong Ren, Dongbo Bu
Interpolation Regime Transformer Encoder Unified Data Multiple Interpolation

August 17, 2022

Transformer Encoder for Social Science
Haosen Ge, In Young Park, Xuancheng Qian, Grace Zeng
Transformer Encoder Social Science Text Data Computational Social Science

June 30, 2022

TENET: Transformer Encoding Network for Effective Temporal Flow on Motion Prediction
Yuting Wang, Hangning Zhou, Zhigang Zhang, Chen Feng, Huadong Lin, Chaofei Gao, Yizhi Tang, Zhenting Zhao, Shiyu Zhang, Jie Guo, Xuefeng Wang, Ziyao Xu, Chi Zhang
Autonomous Driving Trajectory Prediction Motion Prediction Transformer Encoder Human Motion Forecasting Trajectory Encoder

June 17, 2022

Lossy Compression with Gaussian Diffusion
Lucas Theis, Tim Salimans, Matthew D. Hoffman, Fabian Mentzer
Lossy Compression Transformer Encoder Generative Compression Unconditional Diffusion Model Compression Scheme Gaussian Diffusion

June 1, 2022

Where are my Neighbors? Exploiting Patches Relations in Self-Supervised Vision Transformer
Guglielmo Camporese, Elena Izzo, Lamberto Ballan
Vision Transformer Self Supervised Learning Transformer Architecture Vision Task Transformer Encoder Thy Neighbor Self Supervised Vision Transformer Class Relevant Patch

Transformer Encoder

Papers

METransformer: Radiology Report Generation by Transformer with Multiple Learnable Expert Tokens

Machine Learning for Brain Disorders: Transformers and Visual Transformers

Facial Affect Recognition based on Transformer Encoder and Audiovisual Fusion for the ABAW5 Challenge

I3D: Transformer architectures with input-dependent dynamic depth for speech recognition

Transformer Encoder with Multiscale Deep Learning for Pain Classification Using Physiological Signals

FormerTime: Hierarchical Multi-Scale Representations for Multivariate Time Series Classification

Towards Robust Video Instance Segmentation with Temporal-Aware Transformer

NarrowBERT: Accelerating Masked Language Model Pretraining and Inference

Transformers as Policies for Variable Action Environments

YORO -- Lightweight End to End Visual Grounding

SG-Shuffle: Multi-aspect Shuffle Transformer for Scene Graph Generation

Pair DETR: Contrastive Learning Speeds Up DETR Training

Boosting vision transformers for image retrieval

WakeUpNet: A Mobile-Transformer based Framework for End-to-End Streaming Voice Trigger

UNesT: Local Spatial Representation Learning with Hierarchical Transformer for Efficient Medical Segmentation

NIERT: Accurate Numerical Interpolation through Unifying Scattered Data Representations using Transformer Encoder

Transformer Encoder for Social Science

TENET: Transformer Encoding Network for Effective Temporal Flow on Motion Prediction

Lossy Compression with Gaussian Diffusion

Where are my Neighbors? Exploiting Patches Relations in Self-Supervised Vision Transformer