Scene Text Recognition

Scene text recognition (STR) aims to automatically extract and interpret text from images, a crucial task with applications ranging from autonomous driving to accessibility tools. Current research focuses on improving accuracy and efficiency, particularly for low-resolution images and low-resource languages, often employing architectures like transformers and diffusion models, along with self-supervised and semi-supervised learning techniques to address data scarcity. These advancements are driving progress in various fields, including document processing, image understanding, and assistive technologies, by enabling more robust and reliable text extraction from diverse visual sources.

Papers

March 10, 2022

Towards Open-Set Text Recognition via Label-to-Prototype Learning
Chang Liu, Chun Yang, Hai-Bo Qin, Xiaobin Zhu, Cheng-Lin Liu, Xu-Cheng Yin
Scene Text Recognition Open Set Text Recognition

March 9, 2022

Text-DIAE: A Self-Supervised Degradation Invariant Autoencoders for Text Recognition and Document Enhancement
Mohamed Ali Souibgui, Sanket Biswas, Andres Mafla, Ali Furkan Biten, Alicia Fornés, Yousri Kessentini, Josep Lladós, Lluis Gomez, Dimosthenis Karatzas
Self Supervised Text Modality Image Enhancement Text Recognition Scene Text Recognition Degradation Representation

March 7, 2022

Self-supervised Implicit Glyph Attention for Text Recognition
Tongkun Guan, Chaochen Gu, Jingzheng Tu, Xue Yang, Qi Feng, Yudi Zhao, Xiaokang Yang, Wei Shen
Text Recognition Scene Text Recognition Bounding Box Annotation Implicit Attention

January 10, 2022

January 1, 2022

SAFL: A Self-Attention Scene Text Recognizer with Focal Loss
Bao Hieu Tran, Thanh Le-Cong, Huu Manh Nguyen, Duc Anh Le, Thanh Hung Nguyen, Phi Le Nguyen
Scene Text Recognition Character Recognition Focal Loss Convolution Based

December 24, 2021

Visual Semantics Allow for Textual Reasoning Better in Scene Text Recognition
Yue He, Chen Chen, Jing Zhang, Juhua Liu, Fengxiang He, Chaoyue Wang, Bo Du
Scene Text Recognition Visual Recognition Character Level Text Shape Visual Semantics

December 2, 2021

Visual-Semantic Transformer for Scene Text Recognition
Xin Tang, Yongquan Lai, Ying Liu, Yuanyuan Fu, Rui Fang
Scene Text Recognition Semantic Feature Visual Semantic Alignment

November 30, 2021

Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic Features
Byeonghu Na, Yoonsik Kim, Sungrae Park
Feature Enhancement Text Recognition Scene Text Recognition Semantic Feature

November 26, 2021

Traditional Chinese Synthetic Datasets Verified with Labeled Data for Scene Text Recognition
Yi-Chang Chen, Yu-Chuan Chang, Yen-Cheng Chang, Yi-Ren Yeh
Text Recognition Scene Text Recognition Synthetic Datasets Labeled Data Chinese Text Recognition

November 24, 2021

November 22, 2021

CDistNet: Perceiving Multi-Domain Character Distance for Robust Text Recognition
Tianlun Zheng, Zhineng Chen, Shancheng Fang, Hongtao Xie, Yu-Gang Jiang
Scene Text Recognition Feature Alignment Encoder Decoder Transformer Levenshtein Distance

November 16, 2021

TRIG: Transformer-Based Text Recognizer with Initial Embedding Guidance
Yue Tao, Zhiwei Jia, Runze Ma, Shugong Xu
Convolutional Neural Network Text Recognition Scene Text Recognition Transformer Encoder Text Recognition Benchmark Transformer Based Optical Character Recognition