Transformer Based Language Model

Transformer-based language models are deep learning architectures designed to process and generate human language, aiming to understand and replicate the nuances of natural language understanding and generation. Current research focuses on improving model interpretability, addressing contextualization errors, and exploring the internal mechanisms responsible for tasks like reasoning and factual recall, often using models like BERT and GPT variants. These advancements are significant for both the scientific community, furthering our understanding of neural networks and language processing, and for practical applications, enabling improvements in machine translation, question answering, and other NLP tasks.

Papers

October 19, 2023

Transformer-based Entity Legal Form Classification
Alexander Arimond, Mauro Molteni, Dominik Jany, Zornitsa Manolova, Damian Borth, Andreas G. F. Hoepner
Text Classification Transformer Based Language Model BERT Based BERT Variant Name Entity

October 5, 2023

Neural Language Model Pruning for Automatic Speech Recognition
Leonardo Emili, Thiago Fraga-Silva, Ernest Pusateri, Markus Nußbaum-Thom, Youssef Oualil
Large Language Model Automatic Speech Recognition Transformer Based Language Model Pruning Method Iterative Pruning Sparsity Pruning

October 3, 2023

Dodo: Dynamic Contextual Compression for Decoder-only LMs
Guanghui Qin, Corby Rosset, Ethan C. Chau, Nikhil Rao, Benjamin Van Durme
Language Model Transformer Based Language Model Auto Encoder Model Context Compression

September 11, 2023

September 2, 2023

Explainability for Large Language Models: A Survey
Haiyan Zhao, Hanjie Chen, Fan Yang, Ninghao Liu, Huiqi Deng, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Mengnan Du
Large Language Model Natural Language Processing Timely Survey High Explainability Transformer Based Language Model Explanation Method Explainability Technique

August 31, 2023

YaRN: Efficient Context Window Extension of Large Language Models
Bowen Peng, Jeffrey Quesnelle, Honglu Fan, Enrico Shippole
Fine Tuning Transformer Based Language Model Context Length Context Window Rotary Position

August 25, 2023

On the Impact of Language Selection for Training and Evaluating Programming Language Models
Jonathan Katzy, Maliheh Izadi, Arie van Deursen
Training Data Global Impact High Similarity Transformer Based Language Model Unknown Language Code Language Model Token Representation Natural Language Task Multilingual Capability

August 10, 2023

Bringing order into the realm of Transformer-based language models for artificial intelligence and law
Candida M. Greco, Andrea Tagarelli
Artificial Intelligence Natural Language Processing Transformer Architecture Transformer Based Language Model Legal Text Order Matter MLLM Training Textual Domain Forgotten ReaLM

August 7, 2023

Analysis of the Evolution of Advanced Transformer-Based Language Models: Experiments on Opinion Mining
Nour Eddine Zekaoui, Siham Yousfi, Maryem Rhanoui, Mounia Mikram
Natural Language Processing General Analysis Sentiment Analysis Transformer Based Language Model Specie Evolution Opinion Mining

August 1, 2023

CodeBPE: Investigating Subtokenization Options for Large Language Model Pretraining on Source Code
Nadezhda Chirkova, Sergey Troshin
Large Language Model Transformer Based Language Model Source Code

July 27, 2023

ARC-NLP at PAN 2023: Hierarchical Long Text Classification for Trigger Detection
Umitcan Sahin, Izzet Emre Kucukkaya, Cagri Toraman
Transformer Based Language Model Hierarchical Text Classification Trigger Point

July 18, 2023

Text vectorization via transformer-based language models and n-gram perplexities
Mihailo Škorić
Transformer Based Language Model N Gram Perplexity Analysis Model Perplexity

July 12, 2023

June 30, 2023

SMILE: Evaluation and Domain Adaptation for Social Media Language Understanding
Vasilisa Bashlovkina, Riley Matthews, Zhaobin Kuang, Simon Baumgartner, Michael Bendersky
Domain Adaptation Global Evaluation Social Medium Transformer Based Language Model Online Tokenizer Social Medium Language

June 28, 2023

An Efficient Sparse Inference Software Accelerator for Transformer-based Language Models on CPUs
Haihao Shen, Hengyu Meng, Bo Dong, Zhe Wang, Ofir Zafrir, Yi Ding, Yu Luo, Hanwen Chang, Qun Gao, Ziheng Wang, Guy Boudoukh, Moshe Wasserblat
Transformer Based Language Model Neural Network Inference Sparse Accelerator Sparse Learning Method

June 26, 2023

Automatic Assessment of Divergent Thinking in Chinese Language with TransDis: A Transformer-Based Language Model Approach
Tianchen Yang, Qifan Zhang, Zhaoyang Sun, Yubo Hou
Chinese Character Transformer Based Language Model Creativity Assessment Automatic Assessment Divergent Thinking Originality Score

June 23, 2023

Knowledge-Infused Self Attention Transformers
Kaushik Roy, Yuxin Zi, Vignesh Narayanan, Manas Gaur, Amit Sheth
Language Model Self Attention Transformer Architecture Transformer Based Model Transformer Based Language Model

June 19, 2023

Multilingual Few-Shot Learning via Language Model Retrieval
Genta Indra Winata, Liang-Kang Huang, Soumya Vadlamannati, Yash Chandarana
Language Model LeArning Abstract Transformer Based Language Model Shot in Context Learning Question Classification Multilingual Task Shot Data

Transformer Based Language Model

Papers

Transformer-based Entity Legal Form Classification

Neural Language Model Pruning for Automatic Speech Recognition

Dodo: Dynamic Contextual Compression for Decoder-only LMs

Memory Injections: Correcting Multi-Hop Reasoning Failures during Inference in Transformer-Based Language Models

Improving Information Extraction on Business Documents with Specific Pre-Training Tasks

Explainability for Large Language Models: A Survey

YaRN: Efficient Context Window Extension of Large Language Models

On the Impact of Language Selection for Training and Evaluating Programming Language Models

Bringing order into the realm of Transformer-based language models for artificial intelligence and law

Analysis of the Evolution of Advanced Transformer-Based Language Models: Experiments on Opinion Mining

CodeBPE: Investigating Subtokenization Options for Large Language Model Pretraining on Source Code

ARC-NLP at PAN 2023: Hierarchical Long Text Classification for Trigger Detection

Text vectorization via transformer-based language models and n-gram perplexities

No Train No Gain: Revisiting Efficient Training Algorithms For Transformer-based Language Models

Self-Distilled Quantization: Achieving High Compression Rates in Transformer-Based Language Models

SMILE: Evaluation and Domain Adaptation for Social Media Language Understanding

An Efficient Sparse Inference Software Accelerator for Transformer-based Language Models on CPUs

Automatic Assessment of Divergent Thinking in Chinese Language with TransDis: A Transformer-Based Language Model Approach

Knowledge-Infused Self Attention Transformers

Multilingual Few-Shot Learning via Language Model Retrieval