Transformer Based Optical Character Recognition

Transformer-based optical character recognition (OCR) leverages the power of transformer neural networks to accurately transcribe text from images, aiming to improve accuracy and efficiency over traditional methods. Current research focuses on adapting these models to diverse languages, handling damaged or incomplete text, and mitigating vulnerabilities to adversarial attacks, with decoder-only architectures and improved initial embedding strategies showing promise. These advancements have significant implications for various fields, including historical document analysis, automated data entry, and improving the accessibility of visual information.

Papers

July 9, 2024

Spanish TrOCR: Leveraging Transfer Learning for Language Adaptation
Filipe Lauar, Valentin Laurent
Transfer Learning Language Adaptation Multilingual Text Recognition Transformer Based Optical Character Recognition Transformer Based Ocr

June 28, 2024

Mind the Gap: Analyzing Lacunae with Transformer-Based Transcription
Jaydeep Borkar, David A. Smith
Optical Character Recognition Readability Control Historical Document Transformer Based Optical Character Recognition

November 28, 2023

Vulnerability Analysis of Transformer-based Optical Character Recognition to Adversarial Attacks
Lucas Beerens, Desmond J. Higham
Adversarial Attack Optical Character Recognition Character Recognition Vulnerability Analysis Transformer Based Optical Character Recognition

August 30, 2023

DTrOCR: Decoder-only Transformer for Optical Character Recognition
Masato Fujitake
Generative Language Model Text Recognition Character Recognition Decoder Only Transformer Transformer Based Optical Character Recognition

November 16, 2021

TRIG: Transformer-Based Text Recognizer with Initial Embedding Guidance
Yue Tao, Zhiwei Jia, Runze Ma, Shugong Xu
Convolutional Neural Network Text Recognition Scene Text Recognition Transformer Encoder Text Recognition Benchmark Transformer Based Optical Character Recognition

Transformer Based Optical Character Recognition

Papers

Spanish TrOCR: Leveraging Transfer Learning for Language Adaptation

Mind the Gap: Analyzing Lacunae with Transformer-Based Transcription

Vulnerability Analysis of Transformer-based Optical Character Recognition to Adversarial Attacks

DTrOCR: Decoder-only Transformer for Optical Character Recognition

TRIG: Transformer-Based Text Recognizer with Initial Embedding Guidance