the latest in aiBeta

Lexical Overlap

Lexical overlap, the degree of shared vocabulary between text segments, is a key focus in natural language processing research, particularly concerning its impact on model performance and generalization. Current research investigates how lexical overlap influences various tasks, including machine translation, summarization, and natural language inference, often examining the trade-off between leveraging this overlap for efficiency and avoiding rote learning or biases. This research is crucial for developing more robust and reliable language models, improving the accuracy and explainability of evaluation metrics, and ultimately leading to more effective applications in diverse fields.

14papers

Papers

February 7, 2025

NoLiMa: Long-Context Evaluation Beyond Literal Matching
Ali Modarressi, Hanieh Deilamsalehy, Franck Dernoncourt, Trung Bui, Ryan A. Rossi, Seunghyun Yoon, Hinrich Schütze
Needle in a Haystack Long Context Context Length Lexical Overlap Matchmaking System Supervised Baseline Recent Large Language Model

June 24, 2024

Modelled Multivariate Overlap: A method for measuring vowel merger
Irene Smith, Morgan Sonderegger, The Spade Consortium
Overlap Detection Practical Method Speech Corpus Multivariate Approach Acoustic Property Lexical Overlap Vowel Harmony

June 23, 2024

First Heuristic Then Rational: Dynamic Use of Heuristics in Language Model Reasoning
Yoichi Aoki, Keito Kudo, Tatsuki Kuribayashi, Shusaku Sone, Masaya Taniguchi, Keisuke Sakaguchi, Kentaro Inui
Simple Heuristic Multi Step Reasoning Language Model Language Model Reasoning Cognitive Heuristic Lexical Overlap Complex Reasoning

March 26, 2024

Constructions Are So Difficult That Even Large Language Models Get Them Right for the Wrong Reasons
Shijia Zhou, Leonie Weissweiler, Taiqi He, Hinrich Schütze, David R. Mortensen, Lori Levin
Lexical Feature Computational Linguistics Overwater Construction Token Level Lexical Overlap

March 15, 2024

MaiBaam: A Multi-Dialectal Bavarian Universal Dependency Treebank
Verena Blaschke, Barbara Kovačić, Siyao Peng, Hinrich Schütze, Barbara Plank
Syntactic Dependency Dependency Treebanks Lexical Overlap

November 15, 2023

July 30, 2023

User-Controlled Knowledge Fusion in Large Language Models: Balancing Creativity and Hallucination
Chen Zhang
Knowledge Fusion Dialogue System User Response Sustained Creativity Semantic Similarity Lexical Overlap Content Hallucination

June 22, 2023

Towards Explainable Evaluation Metrics for Machine Translation
Christoph Leiter, Piyawat Lertvittayakumjorn, Marina Fomicheva, Wei Zhao, Yang Gao, Steffen Eger
Machine Translation Explainable Metric Natural Language Explanation Lexical Overlap Evaluation Metric

June 8, 2023

Revealing the Blind Spot of Sentence Encoder Evaluation by HEROS
Cheng-Han Chiang, Yung-Sung Chuang, James Glass, Hung-yi Lee
Lexical Overlap Unsupervised Sentence Sentence Pair Blind Spot Semantic Textual Similarity Zero to HeRo Sentence Encoder Sentence Encoders

May 26, 2023

Tokenization Impacts Multilingual Language Modeling: Assessing Vocabulary Allocation and Overlap Across Languages
Tomasz Limisiewicz, Jiří Balhar, David Mareček
Multilingual Language Model Cross Lingual Retrieval Lexical Overlap Open Vocabulary Occupancy Language Model Bilingual Dictionary

May 17, 2023

Balancing Lexical and Semantic Quality in Abstractive Summarization
Jeewoo Sul, Yong Suk Choi
Abstractive Summarization Lexical Overlap Semantic Similarity

October 23, 2022

Lexical Generalization Improves with Larger Models and Longer Training
Elron Bandel, Yoav Goldberg, Yanai Elazar
Large Model Paraphrase Detection Lexical Overlap Fine Tuned Language Model Natural Language Inference Linguistic Generalization

March 21, 2022

Towards Explainable Evaluation Metrics for Natural Language Generation
Christoph Leiter, Piyawat Lertvittayakumjorn, Marina Fomicheva, Wei Zhao, Yang Gao, Steffen Eger
Language Generation Evaluation Metric Lexical Overlap

January 5, 2022

Data-driven Model Generalizability in Crosslinguistic Low-resource Morphological Segmentation
Zoey Liu, Emily Prud'hommeaux
Model Generalizability Lexical Overlap Model Evaluation Low Resource Language Model Generalization Morphological Task