Transformer Based Language Model

Transformer-based language models are deep learning architectures designed to process and generate human language, aiming to understand and replicate the nuances of natural language understanding and generation. Current research focuses on improving model interpretability, addressing contextualization errors, and exploring the internal mechanisms responsible for tasks like reasoning and factual recall, often using models like BERT and GPT variants. These advancements are significant for both the scientific community, furthering our understanding of neural networks and language processing, and for practical applications, enabling improvements in machine translation, question answering, and other NLP tasks.

Papers

June 16, 2023

ActiveGLAE: A Benchmark for Deep Active Learning with Transformers
Lukas Rauch, Matthias Aßenmacher, Denis Huseljic, Moritz Wirth, Bernd Bischl, Bernhard Sick
New Benchmark Transformer Megatron Decepticons Active Learning Transformer Based Language Model Deep Active Learning Annotation Cost

June 1, 2023

Faster Causal Attention Over Large Sequences Through Sparse Flash Attention
Matteo Pagliardini, Daniele Paliotta, Martin Jaggi, François Fleuret
Transformer Based Language Model Long Sequence Transformer Language Model Causal Attention SParse ATtention

May 29, 2023

Transformer Language Models Handle Word Frequency in Prediction Head
Goro Kobayashi, Tatsuki Kuribayashi, Sho Yokoi, Kentaro Inui
Transformer Based Language Model Transformer Language Model Long Tailed Learning Autoregressive Text Generation Prediction Head

May 25, 2023

MERGE: Fast Private Text Generation
Zi Liang, Pinghui Wang, Ruofei Zhang, Nuo Xu, Lifeng Xing, Shuo Zhang
Language Model Language Generation Transformer Based Language Model Private Inference Private INFORMATION RETRIEVAL

May 24, 2023

Adapting Language Models to Compress Contexts
Alexis Chevalier, Alexander Wettig, Anirudh Ajith, Danqi Chen
Language Model Large Corpus Transformer Based Language Model Context Compression Compact Representation

May 23, 2023

May 17, 2023

Token-wise Decomposition of Autoregressive Language Model Hidden States for Analyzing Model Predictions
Byung-Doh Oh, William Schuler
Large Language Model Language Model Transformer Based Language Model Autoregressive Language Model Model Evaluation

April 28, 2023

Dissecting Recall of Factual Associations in Auto-Regressive Language Models
Mor Geva, Jasmijn Bastings, Katja Filippova, Amir Globerson
Transformer Based Language Model Factual Knowledge Context Dependent Question Multiple Attribute Subject Embeddings Knowledge Recall Lack Interpretability

April 27, 2023

ChatGPT vs State-of-the-Art Models: A Benchmarking Study in Keyphrase Generation Task
Roberto Martínez-Cruz, Alvaro J. López-López, José Portela
ChatGPT Generated Conversation Language Generation Transformer Based Language Model Benchmark Study Keyphrase Generation

April 3, 2023

GreekBART: The First Pretrained Greek Sequence-to-Sequence Model
Iakovos Evdaimon, Hadi Abdine, Christos Xypolopoulos, Stamatis Outsios, Michalis Vazirgiannis, Giorgos Stamou
Natural Language Processing BERT Model Sequence to Sequence Transformer Based Language Model Greek Corpus

March 16, 2023

Jump to Conclusions: Short-Cutting Transformers With Linear Transformations
Alexander Yom Din, Taelin Karidi, Leshem Choshen, Mor Geva
Transformer Megatron Decepticons Transformer Based Language Model Hidden Representation Independent Jump Linear Transformation

March 15, 2023

Attention-likelihood relationship in transformers
Valeria Ruscio, Valentino Maiorca, Fabrizio Silvestri
Large Language Model Transformer Megatron Decepticons Transformer Based Language Model Token Prediction Context Reasoning Text Perturbation Attention Based Reasoning

February 21, 2023

February 10, 2023

Step by Step Loss Goes Very Far: Multi-Step Quantization for Adversarial Text Attacks
Piotr Gaiński, Klaudia Bałazy
Adversarial Example Transformer Based Language Model Text Representation Cross Over Step Adversarial Loss Gradient Based Attack Textual Adversarial Attack Step Count

January 21, 2023

REDAffectiveLM: Leveraging Affect Enriched Embedding and Transformer-based Neural Language Model for Readers' Emotion Detection
Anoop Kadan, Deepak P., Manjary P. Gangan, Savitha Sam Abraham, Lajish V. L
Transformer Based Language Model Affective Computing Read V Bi LSTM Better Representation Emotion Embeddings