Levenshtein Distance

Levenshtein distance, a metric quantifying the similarity between two strings based on the minimum number of edits (insertions, deletions, substitutions) needed to transform one into the other, is a fundamental tool across diverse fields. Current research focuses on improving its efficiency and accuracy, particularly within machine learning contexts, leveraging techniques like neural network embeddings and integrating it into advanced architectures such as Levenshtein Transformers for tasks ranging from machine translation and speech recognition to DNA sequence analysis and OCR. These advancements enhance the robustness and applicability of Levenshtein distance in various applications, improving accuracy in areas like spelling correction, duplicate detection, and information retrieval.

16papers

Papers

January 23, 2025

Certified Robustness Under Bounded Levenshtein Distance
Elias Abad Rocamora, Grigorios G. Chrysos, Volkan Cevher
Robustness Certificate Convolutional Neural Network Certified Robustness Levenshtein Distance Lipschitz Constant

August 28, 2024

July 24, 2024

A Comprehensive Approach to Misspelling Correction with BERT and Levenshtein Distance
Amirreza Naziri, Hossein Zeinali
Spelling Correction Bidirectional Encoder Representation Levenshtein Distance Bidirectional Encoder Representation From Transformer Systematic Approach

June 10, 2024

Combining Embeddings and Domain Knowledge for Job Posting Duplicate Detection
Matthias Engelbach, Dennis Klau, Maximilien Kintz, Alexander Ulrich
Near Duplicate Job Description Domain Knowledge Duplicate Detection Text Embeddings Keyword Extraction Levenshtein Distance

May 23, 2024

Optimizing example selection for retrieval-augmented machine translation with translation memories
Maxime Bouthors, Josep Crego, François Yvon
Translation Memory First Stage Retrieval Levenshtein Distance Machine Translation

February 19, 2024

Analysis of Levenshtein Transformer's Decoder and Its Variants
Ruiyang Zhou
Non Autoregressive Machine Translation Translation Memory Levenshtein Distance Natural Language Oriented Variant Translation Quality General Analysis MEG Decoder

December 20, 2023

DoDo-Code: a Deep Levenshtein Distance Embedding-based Code for IDS Channel and DNA Storage
Alan J. X. Guo, Sihan Sun, Xiang Wei, Mengyi Wei, Xin Chen
Polar Code Code Representation Levenshtein Distance DNA Storage

December 13, 2023

Levenshtein Distance Embedding with Poisson Regression for DNA Storage
Xiang Wei, Alan J. X. Guo, Sihan Sun, Mengyi Wei, Wei Yu
Levenshtein Distance DNA Storage Sequence Similarity

October 13, 2023

Towards Example-Based NMT with Multi-Levenshtein Transformers
Maxime Bouthors, Josep Crego, François Yvon
Levenshtein Distance Translation Metric Retrieval Augmented Alignment Algorithm NMT System Domain Adaptation

May 24, 2023

Quantifying Character Similarity with Vision Transformers
Xinmei Yang, Abhishek Arora, Shao-Yu Jheng, Melissa Dell
Back Substitution Vision Transformer Levenshtein Distance Record Linkage Homoglyph Attack

October 12, 2022

Integrating Translation Memories into Non-Autoregressive Machine Translation
Jitao Xu, Josep Crego, François Yvon
Levenshtein Distance Translation Memory Non Autoregressive Machine Translation

September 11, 2022

Applying wav2vec2 for Speech Recognition on Bengali Common Voices Dataset
H. A. Z. Sameen Shahgir, Khondker Salman Sayeed, Tanjeem Azwad Zaman
Wav2vec U Speech Recognition Bangla Text Language Model Levenshtein Distance

September 8, 2022

Levenshtein OCR
Cheng Da, Peng Wang, Cong Yao
OCR Information Levenshtein Distance Vision Language Transformer Scene Text Recognition

July 11, 2022

Deep Squared Euclidean Approximation to the Levenshtein Distance for DNA Storage
Alan J. X. Guo, Cong Liang, Qing-Hu Hou
Euclidean Neural Network Jina Embeddings Euclidean Distance DNA Related Bioinformatics Domain Levenshtein Distance DNA Storage Biological Sequence

April 1, 2022

Human Evaluation and Correlation with Automatic Metrics in Consultation Note Generation
Francesco Moramarco, Alex Papadopoulos Korfiatis, Mark Perera, Damir Juric, Jack Flann, Ehud Reiter, Anya Belz, Aleksandar Savkov
Note Generation Automatic Metric Clinical Note Levenshtein Distance Total Correlation Human Evaluation

November 22, 2021

CDistNet: Perceiving Multi-Domain Character Distance for Robust Text Recognition
Tianlun Zheng, Zhineng Chen, Shancheng Fang, Hongtao Xie, Yu-Gang Jiang
Feature Alignment Scene Text Recognition Encoder Decoder Transformer Levenshtein Distance

Levenshtein Distance

Papers

Certified Robustness Under Bounded Levenshtein Distance

Evaluating Computational Representations of Character: An Austen Character Similarity Benchmark

Beyond Levenshtein: Leveraging Multiple Algorithms for Robust Word Error Rate Computations And Granular Error Classifications

A Comprehensive Approach to Misspelling Correction with BERT and Levenshtein Distance

Combining Embeddings and Domain Knowledge for Job Posting Duplicate Detection

Optimizing example selection for retrieval-augmented machine translation with translation memories

Analysis of Levenshtein Transformer's Decoder and Its Variants

DoDo-Code: a Deep Levenshtein Distance Embedding-based Code for IDS Channel and DNA Storage

Levenshtein Distance Embedding with Poisson Regression for DNA Storage

Towards Example-Based NMT with Multi-Levenshtein Transformers

Quantifying Character Similarity with Vision Transformers

Integrating Translation Memories into Non-Autoregressive Machine Translation

Applying wav2vec2 for Speech Recognition on Bengali Common Voices Dataset

Levenshtein OCR

Deep Squared Euclidean Approximation to the Levenshtein Distance for DNA Storage

Human Evaluation and Correlation with Automatic Metrics in Consultation Note Generation

CDistNet: Perceiving Multi-Domain Character Distance for Robust Text Recognition