Multilingual Tokenizer

Multilingual tokenizers are crucial components of large language models (LLMs) designed to process multiple languages, aiming to improve performance and efficiency across diverse linguistic contexts. Current research focuses on optimizing tokenizer training strategies, including novel algorithms and data preprocessing techniques, to address issues like language imbalance and inefficient tokenization in low-resource languages. This work is significant because improved multilingual tokenizers are essential for building truly multilingual LLMs capable of handling the world's linguistic diversity, impacting applications ranging from machine translation to cross-lingual information retrieval. The effectiveness of different tokenizer architectures and the impact of vocabulary size on downstream performance are also active areas of investigation.

Papers

October 16, 2024

Qtok: A Comprehensive Framework for Evaluating Multilingual Tokenizer Quality in Large Language Models
Iaroslav Chelombitko, Egor Safronov, Aleksey Komissarov
Multilingual Model Quality Issue Multilingual Tokenizer

September 30, 2024

Teuken-7B-Base & Teuken-7B-Instruct: Towards European LLMs
Mehdi Ali, Michael Fromm, Klaudia Thellmann, Jan Ebert, Alexander Arno Weber, Richard Rutmann, Charvi Jain, Max Lübbering, Daniel Steinigen, Johannes Leveling, Katrin Klug, Jasper Schulze Buschhoff, Lena Jurkschat, Hammam Abdelwahab, Benny Jörg Stein, Karl-Heinz Sylla, Pavel Denisov, Nicolo' Brandizzi, Qasid Saleem, Anirban Bhowmick, Lennard Helmer, Chelsea John, Pedro Ortiz Suarez, Malte Ostendorff, Alex Jude, Lalith Manjunath, Samuel Weinbach, Carolin Penke, Oleg Filatov, Shima Asaadi, Fabio Barth, Rafet Sifa, Fabian Küch, Andreas Herten, René Jäkel, Georg Rehm, Stefan Kesselheim, Joachim Köhler, Nicolas Flores-Herr
Development Activity High Resource Language Multilingual Benchmark Multilingual LLM Multilingual Tokenizer

September 24, 2024

EuroLLM: Multilingual Language Models for Europe
Pedro Henrique Martins, Patrick Fernandes, João Alves, Nuno M. Guerreiro, Ricardo Rei, Duarte M. Alves, José Pombal, Amin Farajian, Manuel Faysse, Mateusz Klimaszewski, Pierre Colombo, Barry Haddow, José G. C. de Souza, Alexandra Birch, André F. T. Martins
Machine Translation Multilingual Language Model Multilingual Benchmark Multilingual LLM Multilingual Tokenizer

July 17, 2024

Pretraining Data and Tokenizer for Indic LLM
Rahul Kumar, Shubham Kakde, Divyansh Rajput, Daud Ibrahim, Rishabh Nahata, Pidathala Sowjanya, Deepak Kumar
Pre Training Online Tokenizer Multilingual Tokenizer

April 24, 2024

Nyonic Technical Report
Junfeng Tian, Rui Wang, Cong Li, Yudong Zhou, Jun Liu, Jun Wang
Large Language Model Language Model Rotary Position Multilingual Tokenizer

January 19, 2024

A Simple Framework to Accelerate Multilingual Language Model for Monolingual Text Generation
Jimin Hong, Gibbeum Lee, Jaewoong Cho
Large Language Model Language Model Text Generation Multilingual Language Model Monolingual Language Model Pre Trained Multilingual Model Multilingual Tokenizer

October 12, 2023

Tokenizer Choice For LLM Training: Negligible or Crucial?
Mehdi Ali, Michael Fromm, Klaudia Thellmann, Richard Rutmann, Max Lübbering, Johannes Leveling, Katrin Klug, Jan Ebert, Niclas Doll, Jasper Schulze Buschhoff, Charvi Jain, Alexander Arno Weber, Lena Jurkschat, Hammam Abdelwahab, Chelsea John, Pedro Ortiz Suarez, Malte Ostendorff, Samuel Weinbach, Rafet Sifa, Stefan Kesselheim, Nicolas Flores-Herr
LLM Training English Centric Efficient Tokenization Multilingual Tokenizer Various Number Specific Tokenization Scheme

April 28, 2023

Training and Evaluation of a Multilingual Tokenizer for GPT-SW3
Felix Stollenwerk
Training Data Global Evaluation GPT 3 Online Tokenizer Non Contiguous Piece Multilingual Tokenizer BPE Vocabulary

October 13, 2022

A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained Models
Jimin Sun, Patrick Fernandes, Xinyi Wang, Graham Neubig
Cross Lingual Transfer Inference Latency Multi Dimensional Evaluation Subword Level Model Multilingual Tokenizer

April 29, 2022

How Robust is Neural Machine Translation to Language Imbalance in Multilingual Tokenizer Training?
Shiyue Zhang, Vishrav Chaudhary, Naman Goyal, James Cross, Guillaume Wenzek, Mohit Bansal, Francisco Guzman
Neural Machine Translation Multilingual Neural Machine Translation Multilingual Tokenizer Language Imbalance

April 22, 2022

A Vocabulary-Free Multilingual Neural Tokenizer for End-to-End Task Learning
Md Mofijul Islam, Gustavo Aguilar, Pragaash Ponnusamy, Clint Solomon Mathialagan, Chengyuan Ma, Chenlei Guo
Language Model End to End Subword Tokenization Multilingual Tokenizer