Optical Character Recognition

Optical Character Recognition (OCR) aims to automatically convert images of text into machine-readable text, facilitating efficient document processing and information extraction. Current research emphasizes improving OCR accuracy, particularly for challenging scenarios like historical documents, low-resolution images, and complex layouts, often employing transformer-based language models and convolutional neural networks for both character recognition and post-processing error correction. These advancements are crucial for digitizing historical archives, enhancing accessibility to information, and automating various tasks across diverse fields, from document management to scientific literature analysis.

Papers

January 1, 2024

Efficient Multi-domain Text Recognition Deep Neural Network Parameterization with Residual Adapters
Jiayou Chao, Wei Zhu
Deep Neural Network Multi Task Learning Optical Character Recognition Text Recognition Character Recognition Optical Text

December 29, 2023

An Empirical Study of Scaling Law for OCR
Miao Rang, Zhenni Bi, Chuanjian Liu, Yunhe Wang, Kai Han
Empirical Study Optical Character Recognition Scaling Law Text Recognition Character Recognition Scene Text Recognition Model

December 19, 2023

Advancements and Challenges in Arabic Optical Character Recognition: A Comprehensive Survey
Mahmoud SalahEldin Kasem, Mohamed Mahmoud, Hyun-Soo Kang
Technical Challenge Comprehensive Survey Optical Character Recognition Character Recognition

December 5, 2023

UPOCR: Towards Unified Pixel-Level OCR Interface
Dezhi Peng, Zhenhua Yang, Jiaxin Zhang, Chongyu Liu, Yongxin Shi, Kai Ding, Fengjun Guo, Lianwen Jin
Optical Character Recognition OCR Model

November 28, 2023

Vulnerability Analysis of Transformer-based Optical Character Recognition to Adversarial Attacks
Lucas Beerens, Desmond J. Higham
Adversarial Attack Optical Character Recognition Character Recognition Vulnerability Analysis Transformer Based Optical Character Recognition

November 27, 2023

Optimization of Image Processing Algorithms for Character Recognition in Cultural Typewritten Documents
Mariana Dias, Carla Teixeira Lopes
Optimization Purpose Image Processing Optical Character Recognition Character Recognition Cultural Heritage

November 16, 2023

November 14, 2023

Reading Between the Mud: A Challenging Motorcycle Racer Number Dataset
Jacob Tyo, Youngseog Chung, Motolani Olarinre, Zachary C. Lipton
Optical Character Recognition Character Recognition German Outdoor and Offroad Dataset High Quality Compost

November 9, 2023

DONUT-hole: DONUT Sparsification by Harnessing Knowledge and Optimizing Learning Efficiency
Azhar Shaikh, Michael Cochez, Denis Diachkov, Michiel de Rijcke, Sahar Yousefi
Optical Character Recognition Efficient Learning Document Understanding Character Recognition Model Pruning Harnessing Data

October 25, 2023

Exploring OCR Capabilities of GPT-4V(ision) : A Quantitative and In-depth Evaluation
Yongxin Shi, Dezhi Peng, Wenhui Liao, Zening Lin, Xinhong Chen, Chongyu Liu, Yuyi Zhang, Lianwen Jin
Optical Character Recognition Comprehensive Evaluation Quantitative Explanation

October 24, 2023

GenKIE: Robust Generative Multimodal Document Key Information Extraction
Panfeng Cao, Ye Wang, Qiang Zhang, Zaiqiao Meng
End to End Token Level Optical Character Recognition Key Information Extraction Multimodal Generative Model

October 16, 2023

EfficientOCR: An Extensible, Open-Source Package for Efficiently Digitizing World Knowledge
Tom Bryan, Jacob Carlson, Abhishek Arora, Melissa Dell
Optical Character Recognition Character Recognition Extensible Framework World Knowledge OCR Engine

October 12, 2023

Invisible Threats: Backdoor Attack in OCR Systems
Mauro Conti, Nicola Farronato, Stefanos Koffas, Luca Pajola, Stjepan Picek
Backdoor Attack Optical Character Recognition Imperceptible Attack

August 26, 2023

Handwritten image augmentation
Mahendran N
Optical Character Recognition Handwritten Text Image Handwritten Character

August 25, 2023

DISGO: Automatic End-to-End Evaluation for Scene Text OCR
Mei-Yuh Hwang, Yangyang Shi, Ankit Ramchandani, Guan Pang, Praveen Krishnan, Lucas Kabela, Frank Seide, Samyak Datta, Jun Liu
Optical Character Recognition Character Recognition

August 21, 2023

bbOCR: An Open-source Multi-domain OCR Pipeline for Bengali Documents
Imam Mohammad Zulkarnain, Shayekh Bin Islam, Md. Zami Al Zunaed Farabe, Md. Mehedi Hasan Shawon, Jawaril Munshad Abedin, Beig Rajibul Hasan, Marsia Haque, Istiak Shihab, Syed Mobassir, MD. Nazmuddoha Ansary, Asif Sushmit, Farig Sadeque
Optical Character Recognition Bengali Grapheme Bengali OCR

August 18, 2023

OCR Language Models with Custom Vocabularies
Peter Garst, Reeve Ingle, Yasuhisa Fujii
Language Model Optical Character Recognition Text Recognition Large Vocabulary

August 4, 2023

Universal Defensive Underpainting Patch: Making Your Text Invisible to Optical Character Recognition
JiaCheng Deng, Li Dong, Jiahao Chen, Diqun Yan, Rangding Wang, Dengpan Ye, Lingchen Zhao, Jinyu Tian
Text Modality Optical Character Recognition Character Recognition OCR Engine Defensive Patch

August 1, 2023

Toward Zero-shot Character Recognition: A Gold Standard Dataset with Radical-level Annotations
Xiaolei Diao, Daqian Shi, Jian Li, Lida Shi, Mingzhe Yue, Ruihua Qi, Chuntao Li, Hao Xu
Zero Shot Optical Character Recognition Length Control AU Dataset