Token Embeddings

Token embeddings, numerical representations of words or sub-word units, are fundamental to many natural language processing (NLP) models, aiming to capture semantic meaning and contextual information. Current research focuses on improving embedding efficiency and robustness, exploring techniques like decoupled embeddings, reinforced positional embeddings, and novel pooling strategies within transformer architectures to reduce computational costs and enhance performance across diverse languages and domains. These advancements are crucial for building more efficient and effective language models, impacting applications ranging from machine translation and question answering to speech recognition and information retrieval.

Papers

April 19, 2024

TopoLedgerBERT: Topological Learning of Ledger Description Embeddings using Siamese BERT-Networks
Sander Noels, Sébastien Viaene, Tijl De Bie
Semantic Similarity Token Embeddings Topological Learning Siamese BERT

April 4, 2024

Learn When (not) to Trust Language Models: A Privacy-Centric Adaptive Model-Aware Approach
Chengkai Huang, Rui Wang, Kaige Xie, Tong Yu, Lina Yao
Large Language Model Language Model Pre Training NLP Task App to App Retrieval Token Embeddings

April 3, 2024

Token Trails: Navigating Contextual Depths in Conversational AI with ChatLLM
Md. Kowsher, Ritesh Panditi, Nusrat Jahan Prottasha, Prakash Bhat, Anupam Kumar Bairagi, Mohammad Shamsul Arefin
Context Aware Conversational AI Conversational Context Token Embeddings Conversational Model

March 20, 2024

Don't be a Fool: Pooling Strategies in Offensive Language Detection from User-Intended Adversarial Attacks
Seunguk Yu, Juhwan Choi, Youngbin Kim
General Strategy Offensive Language Token Embeddings Offensive Language Detection

March 17, 2024

Unveiling and Mitigating Memorization in Text-to-image Diffusion Models through Cross Attention
Jie Ren, Yaxin Li, Shenglai Zeng, Han Xu, Lingjuan Lyu, Yue Xing, Jiliang Tang
Text to Image Diffusion Model Cross Attention Cross Attention Mechanism Token Embeddings Memorization Effect Verbatim Memorization

February 28, 2024

Learning Associative Memories with Gradient Descent
Vivien Cabannes, Berfin Simsek, Alberto Bietti
Gradient Descent Jina Embeddings Cross Entropy Loss Associative Memory Token Embeddings

February 23, 2024

Repetition Improves Language Model Embeddings
Jacob Mitchell Springer, Suhas Kotha, Daniel Fried, Graham Neubig, Aditi Raghunathan
Language Model Text Embeddings Token Embeddings Autoregressive Large Language Model Self Repetition

February 16, 2024

Do Llamas Work in English? On the Latent Language of Multilingual Transformers
Chris Wendler, Veniamin Veselovsky, Giovanni Monea, Robert West
Language Model Multilingual Language Model Intermediate Representation Intermediate Latent Multilingual Transformer Token Embeddings Whispering Llama

January 30, 2024

Embracing Language Inclusivity and Diversity in CLIP through Continual Language Learning
Bang Yang, Yong Dai, Xuxin Cheng, Yaowei Li, Asif Raza, Yuexian Zou
Language Model Vision Language Single CLIP Diversity Awareness Token Embeddings Text to Image Retrieval Multilingual Vision

December 28, 2023

SentinelLMs: Encrypted Input Adaptation and Fine-tuning of Language Models for Private and Secure Inference
Abhijit Mishra, Mingda Li, Soham Deo
Language Model Fine Tuning Pre Trained Language Model Neural Language Model Fine Tuned Language Model Token Embeddings Secure Inference Input Adaptation

November 30, 2023

ArthModel: Enhance Arithmetic Skills to Large Language Model
Yingdi Guo
Large Language Model Language Model Mathematical Reasoning Token Embeddings Finetuning Method Mathematical Capability

November 16, 2023

Hijacking Large Language Models via Adversarial In-Context Learning
Yao Qiang, Xiangyu Zhou, Dongxiao Zhu
Large Language Model Adversarial Attack Context Learning Token Embeddings Adversarial Suffix

September 25, 2023

Physics of Language Models: Part 3.1, Knowledge Storage and Extraction
Zeyuan Allen-Zhu, Yuanzhi Li
Large Language Model Language Model Training Data Process Extraction Theoretical Physic Different PaRT Token Embeddings Hidden Representation Knowledge Augmentation Knowledge Storage

September 8, 2023

Encoding Multi-Domain Scientific Papers by Ensembling Multiple CLS Tokens
Ronald Seoh, Haw-Shiuan Chang, Andrew McCallum
Data Encoding Token Embeddings Scientific Domain Token Fusion Multi Domain Benchmark Citation Trajectory Prediction

September 6, 2023

Certifying LLM Safety against Adversarial Prompting
Aounon Kumar, Chirag Agarwal, Suraj Srinivas, Aaron Jiaxun Li, Soheil Feizi, Himabindu Lakkaraju
Adversarial Prompt LLM Safety Token Embeddings Adversarial Pattern Adversarial Suffix Adversarial Prompting

July 2, 2023

TensorGPT: Efficient Compression of the Embedding Layer in LLMs based on the Tensor-Train Decomposition
Mingxue Xu, Yao Lei Xu, Danilo P. Mandic
Large Language Model Multi Layer High Dimension Compression Technique Token Embeddings Language Pattern

May 24, 2023

Lexinvariant Language Models
Qian Huang, Eric Zelikman, Sarah Li Chen, Yuhuai Wu, Gregory Valiant, Percy Liang
Language Model Token Embeddings Discrete Lexical Symbol

May 17, 2023

Solving Cosine Similarity Underestimation between High Frequency Words by L2 Norm Discounting
Saeth Wannasuphoprasit, Yi Zhou, Danushka Bollegala
Language Model Token Embeddings Cosine Similarity L2 Regularization

February 28, 2023

Weighted Sampling for Masked Language Modeling
Linhan Zhang, Qian Chen, Wen Wang, Chong Deng, Xin Cao, Kongzhang Hao, Yuxin Jiang, Wei Wang
Language Model Pre Trained Language Model BERT Based Masked Language Modeling Token Embeddings Weighted Sampling

January 23, 2023

Efficient Language Model Training through Cross-Lingual and Progressive Transfer Learning
Malte Ostendorff, Georg Rehm
Cross Lingual Transfer Model Training Token Embeddings Progressive Learning