Pre Trained Transformer

Pre-trained transformer models are foundational neural networks achieving state-of-the-art results across diverse tasks by leveraging massive datasets for initial training, followed by fine-tuning for specific applications. Current research emphasizes improving efficiency, including parameter reduction techniques like low-rank factorization and early exit strategies, and exploring effective transfer learning methods across modalities (e.g., image to video, text to speech). This work is significant because it enables the application of powerful transformer architectures to resource-constrained settings and expands their utility beyond their original training domains, impacting fields from natural language processing and computer vision to medical image analysis and even military strategy.

Papers

April 19, 2023

Scaling Transformer to 1M tokens and beyond with RMT
Aydar Bulatov, Yuri Kuratov, Yermek Kapushev, Mikhail S. Burtsev
Pre Trained Transformer Language Modeling Task Scaling Transformer

April 5, 2023

Context-Aware Classification of Legal Document Pages
Pavlos Fragkogiannis, Martina Forster, Grace E. Lee, Dell Zhang
Context Aware Pre Trained Transformer Legal Document Document Image Classification Page Classification

March 16, 2023

Can Generative Pre-trained Transformers (GPT) Pass Assessments in Higher Education Programming Courses?
Jaromir Savelka, Arav Agarwal, Christopher Bogart, Yifan Song, Majd Sakr
Direct Assessment Pre Trained Transformer Generative Pre Trained Transformer Programming Education Complex Program

March 13, 2023

Transformer-based Planning for Symbolic Regression
Parshin Shojaee, Kazem Meidani, Amir Barati Farimani, Chandan K. Reddy
Symbolic Regression Pre Trained Transformer Genetic Programming Transformer Based Approach Equation Discovery Planning Transformer

February 24, 2023

February 23, 2023

Teacher Intervention: Improving Convergence of Quantization Aware Training for Ultra-Low Precision Transformers
Minsoo Kim, Kyuhong Shim, Seongmin Park, Wonyong Sung, Jungwook Choi
Early Stage Convergence Pre Trained Transformer Quantization Aware Training Quantization Technique Precision Transformer

February 19, 2023

HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained Transformers
Chen Liang, Haoming Jiang, Zheng Li, Xianfeng Tang, Bin Yin, Tuo Zhao
Knowledge Distillation Pre Trained Language Model Pre Trained Transformer Task Agnostic Distillation

February 13, 2023

Bag of Tricks for In-Distribution Calibration of Pretrained Transformers
Jaeyoung Kim, Dongbin Na, Sungchul Choi, Sungbin Lim
Pre Trained Language Model LLM Based Pre Trained Transformer Confidence Calibration Text Classification Task Bag Prototype Unconventional Rabbit Hat Trick PLM Based Distribution Calibration

February 9, 2023

Leveraging supplementary text data to kick-start automatic speech recognition system development with limited transcriptions
Nay San, Martijn Bartelds, Blaine Billings, Ella de Falco, Hendi Feriza, Johan Safri, Wawan Sahrozi, Ben Foley, Bradley McDonnell, Dan Jurafsky
Language Model Automatic Speech Recognition Pre Trained Transformer Automatic Speech Recognition Performance Coherent Voice Transcription

February 8, 2023

Adapting Pre-trained Vision Transformers from 2D to 3D through Weight Inflation Improves Medical Image Segmentation
Yuhui Zhang, Shih-Cheng Huang, Zhengping Zhou, Matthew P. Lungren, Serena Yeung
Medical Image Segmentation 2 Dimensional Medical Image Analysis 3D Content Pre Trained Transformer Pre Trained Vision Transformer 3D Medical Image 3D Medical Imaging Weight Dynamic

December 22, 2022

Emotion Recognition with Pre-Trained Transformers Using Multimodal Signals
Juan Vazquez-Rodriguez, Grégoire Lefebvre, Julien Cumin, James L Crowley
Emotion Recognition Pre Trained Transformer Multimodal Emotion Recognition Multimodal Input Physiological Signal Transformer Based Approach Multimodal Signal

December 19, 2022

Do CoNLL-2003 Named Entity Taggers Still Work Well in 2023?
Shuheng Liu, Alan Ritter
Entity Recognition Named Entity Recognition Pre Trained Transformer Pre Training Corpus

December 16, 2022

Context-aware Fine-tuning of Self-supervised Speech Models
Suwon Shon, Felix Wu, Kwangyoun Kim, Prashant Sridhar, Karen Livescu, Shinji Watanabe
Automatic Speech Recognition Fine Tuning Pre Trained Transformer Self Supervised Speech Model

December 12, 2022

Parameter-Efficient Finetuning of Transformers for Source Code
Shamil Ayupov, Nadezhda Chirkova
Fine Tuning Transformer Megatron Decepticons Parameter Efficient Fine Tuning Pre Trained Transformer Source Code Efficient Fine Tuning Parameter Efficient Finetuning

December 8, 2022

November 30, 2022

BudgetLongformer: Can we Cheaply Pretrain a SotA Legal Language Model From Scratch?
Joel Niklaus, Daniele Giofré
Pre Training Pre Trained Transformer Efficient Transformer Scratch Project Long Span State of the Art Language Legal Language Model Longformer Model

November 17, 2022

On the Effect of Pre-training for Transformer in Different Modality on Offline Reinforcement Learning
Shiro Takagi
Fine Tuning Transformer Based Offline Reinforcement Learning Mixed Effect Transformer Based Model Meaningful Representation Pre Trained Transformer Different Modality