Transformer Based Language Model

Transformer-based language models are deep learning architectures designed to process and generate human language, aiming to understand and replicate the nuances of natural language understanding and generation. Current research focuses on improving model interpretability, addressing contextualization errors, and exploring the internal mechanisms responsible for tasks like reasoning and factual recall, often using models like BERT and GPT variants. These advancements are significant for both the scientific community, furthering our understanding of neural networks and language processing, and for practical applications, enabling improvements in machine translation, question answering, and other NLP tasks.

Papers

April 7, 2022

Transformer-Based Language Models for Software Vulnerability Detection
Chandra Thapa, Seung Ick Jang, Muhammad Ejaz Ahmed, Seyit Camtepe, Josef Pieprzyk, Surya Nepal
Language Model Transformer Based Language Model Transformer Based Large Language Model Software Vulnerability Prediction Vulnerability Data

April 4, 2022

Applying Automatic Text Summarization for Fake News Detection
Philipp Hartl, Udo Kruschwitz
BERT Model Text Summarization Fake News Fake News Detection Transformer Based Language Model Text Representation News Consumption

March 28, 2022

Transformer Feed-Forward Layers Build Predictions by Promoting Concepts in the Vocabulary Space
Mor Geva, Avi Caciularu, Kevin Ro Wang, Yoav Goldberg
Neural Network Transformer Model Transformer Based Language Model Concept Identification Token Representation Language Space Transformer Feed Forward Layer

March 27, 2022

Pyramid-BERT: Reducing Complexity via Successive Core-set based Token Selection
Xin Huang, Ashish Khetan, Rene Bidart, Zohar Karnin
NLP Task Complexity Matter Transformer Based Language Model Code BERT Core Set Token Selection BERT LID Model

March 24, 2022

March 23, 2022

A Context-Aware Feature Fusion Framework for Punctuation Restoration
Yangjun Wu, Kebin Fang, Yao Zhao
Feature Fusion Transformer Based Language Model Attention Module Punctuation Restoration Punctuation Mark

March 17, 2022

HiStruct+: Improving Extractive Text Summarization with Hierarchical Structure Information
Qian Ruan, Malte Ostendorff, Georg Rehm
Language Model Text Summarization Transformer Based Language Model Hierarchical Information

March 14, 2022

The Optimal BERT Surgeon: Scalable and Accurate Second-Order Pruning for Large Language Models
Eldar Kurtic, Daniel Campos, Tuan Nguyen, Elias Frantar, Mark Kurtz, Benjamin Fineran, Michael Goin, Dan Alistarh
BERT Model Transformer Based Language Model Based Pruning

March 10, 2022

AIFB-WebScience at SemEval-2022 Task 12: Relation Extraction First -- Using Relation Extraction to Identify Entities
Nicholas Popovic, Walter Laurito, Michael Färber
Relation Extraction SemEval 2022 Task Transformer Based Language Model Entity Mention Entity Extraction

February 23, 2022

Short-answer scoring with ensembles of pretrained language models
Christopher Ormerod
Language Model Diverse Ensemble Transformer Based Language Model Short Answer Feature Model

February 19, 2022

Reward Modeling for Mitigating Toxicity in Transformer-based Language Models
Farshid Faal, Ketra Schmitt, Jia Yuan Yu
Language Model Transformer Based Language Model Detoxification Model Gated Toxicity Avoidance Language Model Detoxification

February 5, 2022

Adaptive Fine-Tuning of Transformer-Based Language Models for Named Entity Recognition
Felix Stollenwerk
Fine Tuning Entity Recognition Hyperparameter Optimization Transformer Based Language Model

December 16, 2021

Prompt Tuning GPT-2 language model for parameter-efficient domain adaptation of ASR systems
Saket Dingliwal, Ashish Shenoy, Sravan Bodapati, Ankur Gandhe, Ravi Teja Gadde, Katrin Kirchhoff
Automatic Speech Recognition Domain Specific Transformer Based Language Model Automatic Speech Recognition System Efficient Domain Adaptation

December 8, 2021

Scaling Language Models: Methods, Analysis & Insights from Training Gopher
Jack W. Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann, Francis Song, John Aslanides, Sarah Henderson, Roman Ring, Susannah Young, Eliza Rutherford, Tom Hennigan, Jacob Menick, Albin Cassirer, Richard Powell, George van den Driessche, Lisa Anne Hendricks, Maribeth Rauh, Po-Sen Huang, Amelia Glaese, Johannes Welbl, Sumanth Dathathri, Saffron Huang, Jonathan Uesato, John Mellor, Irina Higgins, Antonia Creswell, Nat McAleese, Amy Wu, Erich Elsen, Siddhant Jayakumar, Elena Buchatskaya, David Budden, Esme Sutherland, Karen Simonyan, Michela Paganini, Laurent Sifre, Lena Martens, Xiang Lorraine Li, Adhiguna Kuncoro, Aida Nematzadeh, Elena Gribovskaya, Domenic Donato, Angeliki Lazaridou, Arthur Mensch, Jean-Baptiste Lespiau, Maria Tsimpoukelli, Nikolai Grigorev, Doug Fritz, Thibault Sottiaux, Mantas Pajarskas, Toby Pohlen, Zhitao Gong, Daniel Toyama, Cyprien de Masson d'Autume, Yujia Li, Tayfun Terzi, Vladimir Mikulik, Igor Babuschkin, Aidan Clark, Diego de Las Casas, Aurelia Guy, Chris Jones, James Bradbury, Matthew Johnson, Blake Hechtman, Laura Weidinger, Iason Gabriel, William Isaac, Ed Lockhart, Simon Osindero, Laura Rimell, Chris Dyer, Oriol Vinyals, Kareem Ayoub, Jeff Stanway, Lorrayne Bennett, Demis Hassabis, Koray Kavukcuoglu, Geoffrey Irving
Language Model Full Model General Analysis NCD Method DCU Insight AQ Transformer Based Language Model AI Safety Training Regime

November 16, 2021

Interpreting Language Models Through Knowledge Graph Extraction
Vinitra Swamy, Angelika Romanou, Martin Jaggi
Language Model Knowledge Graph BERT Model Transformer Based Language Model

November 10, 2021

Prune Once for All: Sparse Pre-Trained Language Models
Ofir Zafrir, Ariel Larey, Guy Boudoukh, Haihao Shen, Moshe Wasserblat
Large Language Model Edge Pruning Transformer Based Language Model Transformer Based Pre Trained Language BERT Large

Transformer Based Language Model

Papers

Transformer-Based Language Models for Software Vulnerability Detection

Applying Automatic Text Summarization for Fake News Detection

Transformer Feed-Forward Layers Build Predictions by Promoting Concepts in the Vocabulary Space

Pyramid-BERT: Reducing Complexity via Successive Core-set based Token Selection

Multi-armed bandits for resource efficient, online optimization of language model pre-training: the use case of dynamic masking

minicons: Enabling Flexible Behavioral and Representational Analyses of Transformer Language Models

Can Unsupervised Knowledge Transfer from Social Discussions Help Argument Mining?

A Context-Aware Feature Fusion Framework for Punctuation Restoration

HiStruct+: Improving Extractive Text Summarization with Hierarchical Structure Information

The Optimal BERT Surgeon: Scalable and Accurate Second-Order Pruning for Large Language Models

AIFB-WebScience at SemEval-2022 Task 12: Relation Extraction First -- Using Relation Extraction to Identify Entities

Short-answer scoring with ensembles of pretrained language models

Reward Modeling for Mitigating Toxicity in Transformer-based Language Models

Adaptive Fine-Tuning of Transformer-Based Language Models for Named Entity Recognition

Prompt Tuning GPT-2 language model for parameter-efficient domain adaptation of ASR systems

Scaling Language Models: Methods, Analysis & Insights from Training Gopher

Interpreting Language Models Through Knowledge Graph Extraction

Prune Once for All: Sparse Pre-Trained Language Models