Language Modeling Task

Language modeling tasks focus on training computational models to predict the probability of sequences of words, enabling applications like text generation and translation. Current research emphasizes improving model efficiency and performance, particularly through exploring novel architectures like state-space models and loop-residual networks, as well as optimizing existing transformers via techniques such as pruning, knowledge distillation, and prompt engineering. These advancements aim to reduce computational costs while enhancing accuracy and addressing limitations in handling long sequences and incorporating multimodal information, ultimately impacting various fields from natural language processing to user interface design.

Papers

February 29, 2024

February 24, 2024

Enhanced User Interaction in Operating Systems through Machine Learning Language Models
Chenwei Zhang, Wenran Lu, Chunhe Ni, Hongbo Wang, Jiang Wu
Recommendation System User Experience Language Modeling Task Interaction Design Recommendation Module

February 16, 2024

Linear Transformers with Learnable Kernel Functions are Better In-Context Models
Yaroslav Aksenov, Nikita Balagansky, Sofia Maria Lo Cicero Vaina, Boris Shaposhnikov, Alexey Gorbatovski, Daniil Gavrilov
Language Model Language Modeling Language Modeling Task Linear Transformer Learned Kernel Contextual Variable

February 8, 2024

How do Transformers perform In-Context Autoregressive Learning?
Michael E. Sander, Raja Giryes, Taiji Suzuki, Mathieu Blondel, Gabriel Peyré
Transformer Megatron Decepticons Transformer Model Next Token Prediction Layer Transformer Language Modeling Task Head Transformer Autoregressive Context

January 8, 2024

Anatomy of Neural Language Models
Majd Saleh, Stéphane Paquelet
Language Model Transfer Learning Generative AI Transformer Based Language Model Neural Language Model Language Modeling Task

January 6, 2024

Enhancing Context Through Contrast
Kshitij Ambilduke, Aneesh Shetye, Diksha Bagade, Rishika Bhagwatkar, Khurshed Fitter, Prasad Vagdargi, Shital Chiddarwar
Contrastive Learning Neural Machine Translation Language Modelling Language Modeling Task Context Feature

October 31, 2023

Longer Fixations, More Computation: Gaze-Guided Recurrent Neural Networks
Xinting Huang, Jiajing Wan, Ioannis Kritikos, Nora Hollenstein
Language Model Neural Network Language Modeling Task Fixation Prediction

October 25, 2023

Unraveling Feature Extraction Mechanisms in Neural Networks
Xiaobing Sun, Jiaxi Li, Wei Lu
Large Language Model Neural Network CNN Model Feature Extraction Neural Tangent Kernel Language Modeling Task

September 27, 2023

Graph Neural Prompting with Large Language Models
Yijun Tian, Huan Song, Zichen Wang, Haozhu Wang, Ziqing Hu, Fang Wang, Nitesh V. Chawla, Panpan Xu
Large Language Model Knowledge Graph Prompt Learning Language Modeling Task

August 12, 2023

AutoConv: Automatically Generating Information-seeking Conversations with Large Language Models
Siheng Li, Cheng Yang, Yichun Yin, Xinyu Zhu, Zesen Cheng, Lifeng Shang, Xin Jiang, Qun Liu, Yujiu Yang
Large Language Model Dialogue Generation Community Conversation Language Modeling Task Synthetic Dialogue Conversation Generation

July 19, 2023

Exploring Transformer Extrapolation
Zhen Qin, Yiran Zhong, Hui Deng
Receptive Field Long Sequence Language Modeling Task Relative Positional Encoding Length Extrapolation Transformer Length Extrapolation

June 15, 2023

Block-State Transformers
Mahan Fathi, Jonathan Pilault, Orhan Firat, Christopher Pal, Pierre-Luc Bacon, Ross Goroshin
Language Modeling Task State Transformer

June 5, 2023

Efficient GPT Model Pre-training using Tensor Train Matrix Representation
Viktoriia Chekalina, Georgii Novikov, Julia Gusak, Ivan Oseledets, Alexander Panchenko
Transformer Model Language Modeling Task Tensor Train GPT Model Large Scale Transformer Model

May 29, 2023

Test-Time Training on Nearest Neighbors for Large Language Models
Moritz Hardt, Yu Sun
Language Model App to App Retrieval Nearest Neighbor Text Embeddings Language Modeling Task Test Time Training

May 21, 2023

Multi-Head State Space Model for Speech Recognition
Yassir Fathullah, Chunyang Wu, Yuan Shangguan, Junteng Jia, Wenhan Xiong, Jay Mahadeokar, Chunxi Liu, Yangyang Shi, Ozlem Kalinli, Mike Seltzer, Mark J. F. Gales
Speech Recognition State Space Multi Head Attention Librispeech Speech Recognition Language Modeling Task Transformer Encoders

April 19, 2023

Scaling Transformer to 1M tokens and beyond with RMT
Aydar Bulatov, Yuri Kuratov, Yermek Kapushev, Mikhail S. Burtsev
Pre Trained Transformer Language Modeling Task Scaling Transformer

December 15, 2022

Efficient Long Sequence Modeling via State Space Augmented Transformer
Simiao Zuo, Xiaodong Liu, Jian Jiao, Denis Charles, Eren Manavoglu, Tuo Zhao, Jianfeng Gao
Language Understanding Language Generation Encoder Decoder Long Sequence Language Modeling Task Augmented Transformer

November 28, 2022

Continuous diffusion for categorical data
Sander Dieleman, Laurent Sartran, Arman Roshannai, Nikolay Savinov, Yaroslav Ganin, Pierre H. Richemond, Arnaud Doucet, Robin Strudel, Chris Dyer, Conor Durkan, Curtis Hawthorne, Rémi Leblond, Will Grathwohl, Jonas Adler
Diffusion Model Generative Model Diffusion Based Categorical Data Language Modeling Task Perceptual Information Time Series Diffusion

September 30, 2022

Underspecification in Language Modeling Tasks: A Causality-Informed Study of Gendered Pronoun Resolution
Emily McMilin
Study Feature Token Prediction Language Modeling Task Pronoun Resolution