Pre Trained Transformer

Pre-trained transformer models are foundational neural networks achieving state-of-the-art results across diverse tasks by leveraging massive datasets for initial training, followed by fine-tuning for specific applications. Current research emphasizes improving efficiency, including parameter reduction techniques like low-rank factorization and early exit strategies, and exploring effective transfer learning methods across modalities (e.g., image to video, text to speech). This work is significant because it enables the application of powerful transformer architectures to resource-constrained settings and expands their utility beyond their original training domains, impacting fields from natural language processing and computer vision to medical image analysis and even military strategy.

Papers

May 25, 2022

BiT: Robustly Binarized Multi-distilled Transformer
Zechun Liu, Barlas Oguz, Aasish Pappu, Lin Xiao, Scott Yih, Meng Li, Raghuraman Krishnamoorthi, Yashar Mehdad
Transformer Model Pre Trained Transformer Binarization Method P Bit BERT Baseline Binary Vision Transformer

May 21, 2022

May 20, 2022

Pre-training Transformer Models with Sentence-Level Objectives for Answer Sentence Selection
Luca Di Liello, Siddhant Garg, Luca Soldaini, Alessandro Moschitti
Transformer Model Sentence Level Pre Trained Transformer Sentence Representation Paragraph Speech Level Semantics Answer Sentence Selection

May 2, 2022

Paragraph-based Transformer Pre-training for Multi-Sentence Inference
Luca Di Liello, Siddhant Garg, Luca Soldaini, Alessandro Moschitti
Fact Checking Pre Trained Transformer Inference Task Multi Task Inference Sentence Inference

March 15, 2022

March 14, 2022

Can pre-trained Transformers be used in detecting complex sensitive sentences? -- A Monsanto case study
Roelien C. Timmer, David Liebowitz, Surya Nepal, Salil S. Kanhere
Case Study Pre Trained Transformer Sensitive Data Information Detection

March 9, 2022

Memory Efficient Continual Learning with Transformers
Beyza Ermis, Giovanni Zappella, Martin Wistuba, Aditya Rawal, Cedric Archambeau
Machine Learning Model Transformer Megatron Decepticons Catastrophic Forgetting Continual Learning Pre Trained Transformer Large Pre Trained

January 14, 2022

The Dark Side of the Language: Pre-trained Transformers in the DarkNet
Leonardo Ranaldi, Aria Nourbakhsh, Arianna Patrizi, Elena Sofia Ruzzetti, Dario Onorati, Francesca Fallucchi, Fabio Massimo Zanzotto
Domain Adaptation Transformer Megatron Decepticons Human Language Pre Trained Transformer Training Corpus Language Modeling Task

December 25, 2021

An Ensemble of Pre-trained Transformer Models For Imbalanced Multiclass Malware Classification
Ferhat Demirkıran, Aykut Çayır, Uğur Ünal, Hasan Dağ
Deep Learning Model Diverse Ensemble Pre Trained Transformer Malware Detection Malware Classification Malware Family Malware Classifier Forest Classifier

December 22, 2021

Domain Adaptation with Pre-trained Transformers for Query Focused Abstractive Text Summarization
Md Tahmid Rahman Laskar, Enamul Hoque, Jimmy Xiangji Huang
Domain Adaptation Query Information Pre Trained Transformer Summarization Model Abstractive Summary Abstractive Text Summarization Query Focused Transformer Based Summarization Model

December 18, 2021

Pre-Training Transformers for Domain Adaptation
Burhan Ul Tayyab, Nicholas Chua
Domain Adaptation Semi Supervised Unsupervised Domain Adaptation Pre Trained Transformer Distribution Datasets

December 17, 2021

SiamTrans: Zero-Shot Multi-Frame Image Restoration with Pre-Trained Siamese Transformers
Lin Liu, Shanxin Yuan, Jianzhuang Liu, Xin Guo, Youliang Yan, Qi Tian
Pre Trained Transformer Siamese Transformer Zero Shot Image Restoration Siamese Sleep Transformer

December 8, 2021

November 24, 2021

Scaling Up Vision-Language Pre-training for Image Captioning
Xiaowei Hu, Zhe Gan, Jianfeng Wang, Zhengyuan Yang, Zicheng Liu, Yumao Lu, Lijuan Wang
Vision Language Image Captioning Pre Trained Transformer Captioning Benchmark

Pre Trained Transformer

Papers

BiT: Robustly Binarized Multi-distilled Transformer

Life after BERT: What do Other Muppets Understand about Language?

Calibration of Natural Language Understanding Models with Venn--ABERS Predictors

Pre-training Transformer Models with Sentence-Level Objectives for Answer Sentence Selection

Paragraph-based Transformer Pre-training for Multi-Sentence Inference

Do BERTs Learn to Use Browser User Interface? Exploring Multi-Step Tasks with Unified Vision-and-Language BERTs

Efficient Long Sequence Encoding via Synchronization

Can pre-trained Transformers be used in detecting complex sensitive sentences? -- A Monsanto case study

Memory Efficient Continual Learning with Transformers

The Dark Side of the Language: Pre-trained Transformers in the DarkNet

An Ensemble of Pre-trained Transformer Models For Imbalanced Multiclass Malware Classification

Domain Adaptation with Pre-trained Transformers for Query Focused Abstractive Text Summarization

Pre-Training Transformers for Domain Adaptation

SiamTrans: Zero-Shot Multi-Frame Image Restoration with Pre-Trained Siamese Transformers

Improving language models by retrieving from trillions of tokens

VIRT: Improving Representation-based Models for Text Matching through Virtual Interaction

Scaling Up Vision-Language Pre-training for Image Captioning