Subword Embeddings

Subword embeddings represent words as sequences of smaller units (subwords), improving handling of rare or unseen words in natural language processing. Current research focuses on optimizing subword segmentation algorithms, exploring the interplay between subword representations and cross-lingual transfer in multilingual models, and developing efficient methods for initializing embeddings in low-resource languages. These advancements enhance the performance of various NLP tasks, including machine translation and part-of-speech tagging, particularly for languages with complex morphology or limited training data, and contribute to more efficient and environmentally friendly model training.

Papers

June 19, 2024

Lexically Grounded Subword Segmentation
Jindřich Libovický, Jindřich Helcl
Part of Speech Subword Segmentation Subword Embeddings

March 29, 2024

A Systematic Analysis of Subwords and Cross-Lingual Transfer in Multilingual Translation
Francois Meyer, Jan Buys
Fine Tuning Cross Lingual Transfer Multilingual Translation Sub Word Subword Embeddings Subword Segmentation

February 15, 2024

Knowledge of Pretrained Language Models on Surface Information of Tokens
Tatsuya Hiraoka, Naoaki Okazaki
Language Model Knowledge Based Pretrained Language Model K TOKEN Object Surface Token Representation Subword Embeddings Japanese Corpus

November 15, 2023

OFA: A Framework of Initializing Unseen Subword Embeddings for Efficient Large-scale Multilingual Continued Pretraining
Yihong Liu, Peiqin Lin, Mingyang Wang, Hinrich Schütze
Language Model New Framework Multilingual Language Model Downstream Task Continual Pre Training Subword Embeddings Multilingual Word Embeddings

May 23, 2023

Multilingual Pixel Representations for Translation and Effective Cross-lingual Transfer
Elizabeth Salesky, Neha Verma, Philipp Koehn, Matt Post
Cross Lingual Transfer View Translation Pixel Level Multilingual Machine Translation Subword Embeddings

February 28, 2023

Are Character-level Translations Worth the Wait? Comparing ByT5 and mT5 for Machine Translation
Lukas Edman, Gabriele Sarti, Antonio Toral, Gertjan van Noord, Arianna Bisazza
Machine Translation Neural Machine Translation Character Level Byte Level Subword Embeddings Medical mT5

December 19, 2022

Inducing Character-level Structure in Subword-based Language Models with Type-level Interchange Intervention Training
Jing Huang, Zhengxuan Wu, Kyle Mahowald, Christopher Potts
Bridging Text Character Level Subword Embeddings Subword Level Model

December 2, 2022

Subword-Delimited Downsampling for Better Character-Level Translation
Lukas Edman, Antonio Toral, Gertjan van Noord
Machine Translation Character Level Subword Embeddings Subword Level Model Downsampling Method

November 29, 2022

Extending the Subwording Model of Multilingual Pretrained Models for New Languages
Kenji Imamura, Eiichiro Sumita
Natural Language Processing Machine Translation Online Tokenizer New Language Multilingual Pretraining Subword Embeddings

June 7, 2022

Searching for Optimal Subword Tokenization in Cross-domain NER
Ruotian Ma, Yiding Tan, Xin Zhou, Xuanting Chen, Di Liang, Sirui Wang, Wei Wu, Tao Gui, Qi Zhang
Unsupervised Domain Adaptation Distribution Shift Domain Invariant Representation Subword Embeddings Cross Domain NER

May 23, 2022

Local Byte Fusion for Neural Machine Translation
Makesh Narsimhan Sreedhar, Xiangpeng Wan, Yu Cheng, Junjie Hu
Neural Machine Translation Multilingual Corpus Subword Tokenization Global Local Byte Level Subword Embeddings

January 13, 2022

Compressing Word Embeddings Using Syllables
Laurent Mertens, Joost Vennekens
Word Embeddings N Gram Subword Embeddings

December 20, 2021

Between words and characters: A Brief History of Open-Vocabulary Modeling and Tokenization in NLP
Sabrina J. Mielke, Zaid Alyafeai, Elizabeth Salesky, Colin Raffel, Manan Dey, Matthias Gallé, Arun Raja, Chenglei Si, Wilson Y. Lee, Benoît Sagot, Samson Tan
Natural Language Processing Open Vocabulary Word List Character Persona Character Level Multiword Expression Subword Embeddings

December 13, 2021

WECHSEL: Effective initialization of subword embeddings for cross-lingual transfer of monolingual language models
Benjamin Minixhofer, Fabian Paischer, Navid Rekabsaz
Large Language Model Cross Lingual Transfer Token Embeddings Monolingual Language Model Initialization Bias Subword Embeddings Multilingual Word Embeddings

December 30, 2020

Enhancing Sindhi Word Segmentation using Subword Representation Learning and Position-aware Self-attention
Wazir Ali, Jay Kumar, Saifullah Tumrani, Redhwan Nour, Adeeb Noor, Zenglin Xu
Sub Word Word Segmentation Chinese Word Segmentation Subword Embeddings Subword Segmentation

Subword Embeddings

Papers

Lexically Grounded Subword Segmentation

A Systematic Analysis of Subwords and Cross-Lingual Transfer in Multilingual Translation

Knowledge of Pretrained Language Models on Surface Information of Tokens

OFA: A Framework of Initializing Unseen Subword Embeddings for Efficient Large-scale Multilingual Continued Pretraining

Multilingual Pixel Representations for Translation and Effective Cross-lingual Transfer

Are Character-level Translations Worth the Wait? Comparing ByT5 and mT5 for Machine Translation

Inducing Character-level Structure in Subword-based Language Models with Type-level Interchange Intervention Training

Subword-Delimited Downsampling for Better Character-Level Translation

Extending the Subwording Model of Multilingual Pretrained Models for New Languages

Searching for Optimal Subword Tokenization in Cross-domain NER

Local Byte Fusion for Neural Machine Translation

Compressing Word Embeddings Using Syllables

Between words and characters: A Brief History of Open-Vocabulary Modeling and Tokenization in NLP

WECHSEL: Effective initialization of subword embeddings for cross-lingual transfer of monolingual language models

Enhancing Sindhi Word Segmentation using Subword Representation Learning and Position-aware Self-attention