Scene Text Spotting

Scene text spotting aims to automatically locate and transcribe text within natural images, a crucial task for various applications like autonomous driving and document processing. Current research emphasizes improving the synergy between text detection and recognition, often employing transformer-based architectures and incorporating linguistic priors to enhance accuracy, particularly for challenging scenarios like irregular text shapes, multiple languages, and dense text areas. These advancements are driving improvements in both the accuracy and efficiency of scene text spotting systems, leading to more robust and reliable text extraction from complex visual scenes.

14papers

Papers

March 9, 2025

TextInPlace: Indoor Visual Place Recognition in Repetitive Structures with Scene Text Spotting and Verification
Huaqi Tao, Bingxi Liu, Calvin Chen, Tingjun Huang, He Li, Jinqiang Cui, Hong Zhang
Southern University of Science and Technology●Peng Cheng Laboratory●University of Cambridge
Scene Text Spotting Verification Task Attention Based Aggregation Indoor Scene Visual Place Recognition Periodic Structure Place Recognition Maze Environment

December 20, 2024

InstructOCR: Instruction Boosting Scene Text Spotting
Chen Duan, Qianyi Jiang, Pei Fu, Jiamin Chen, Shengxi Li, Zining Wang, Shan Guo, Junfeng Luo
MPT 7b Instruct Scene Text Spotting Optical Character Recognition Human Instruction

March 15, 2024

TextBlockV2: Towards Precise-Detection-Free Scene Text Spotting with Pre-trained Language Model
Jiahao Lyu, Jin Wei, Gangyan Zeng, Zeng Li, Enze Xie, Wei Wang, Yu Zhou
Text Block Scene Text Block Level Text Scene Text Spotting

February 27, 2024

Efficiently Leveraging Linguistic Priors for Scene Text Spotting
Nguyen Nguyen, Yapeng Tian, Chenliang Xu
Language Prior Scene Coordinate Scene Text Text Detection Scene Text Spotting Scene Text Recognition

January 15, 2024

SwinTextSpotter v2: Towards Better Synergy for Scene Text Spotting
Mingxin Huang, Dezhi Peng, Hongliang Li, Zhenghao Peng, Chongyu Liu, Dahua Lin, Yuliang Liu, Xiang Bai, Lianwen Jin
Model Synergy Scene Text Scene Text Spotting Text Localization Recognition Module Text Detection

January 8, 2024

Inverse-like Antagonistic Scene Text Spotting via Reading-Order Estimation and Dynamic Sampling
Shi-Xue Zhang, Chun Yang, Xiaobin Zhu, Hongyang Zhou, Hongfa Wang, Xu-Cheng Yin
Scene Text Spotting Scene Text Text Recognition Scene Text Editing Dynamic Sampling Text Detection

December 25, 2023

Word length-aware text spotting: Enhancing detection and recognition in dense text image
Hao Wang, Huabing Zhou, Yanduo Zhang, Tao Lu, Jiayi Ma
Text Length Word Segmentation Recognition Rate Scene Text Spotting Data Detection Scene Text Detection Real Text Word Text Detection

October 2, 2023

Harnessing the Power of Multi-Lingual Datasets for Pre-training: Towards Enhancing Text Spotting Performance
Alloy Das, Sanket Biswas, Ayan Banerjee, Josep Lladós, Umapada Pal, Saumik Bhattacharya
Scene Text Real Power Multilingual Dataset Scene Text Detection Scene Text Spotting

September 5, 2023

STEP -- Towards Structured Scene-Text Spotting
Sergi Garcia-Bordils, Dimosthenis Karatzas, Marçal Rusiñol
Cross Over Step Scene Text Spotting Scene Text Detection

August 20, 2023

ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy in Transformer
Mingxin Huang, Jiaxin Zhang, Dezhi Peng, Hao Lu, Can Huang, Yuliang Liu, Xiang Bai, Lianwen Jin
Model Synergy Transformer Based Framework Text Detection Scene Text Spotting Transformer Based

February 21, 2023

A3S: Adversarial learning of semantic representations for Scene-Text Spotting
Masato Fujitake
Natural Image Adversarial Learning Scene Text Semantic Representation Scene Text Spotting Text Recognition

January 4, 2023

SPTS v2: Single-Point Scene Text Spotting
Yuliang Liu, Jiaxin Zhang, Dezhi Peng, Mingxin Huang, Xinyu Wang, Jingqun Tang, Can Huang, Dahua Lin, Chunhua Shen, Xiang Bai, Lianwen Jin
Text Recognition Text Detection Scene Text Scene Text Spotting

November 19, 2022

ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Spotting
Shancheng Fang, Zhendong Mao, Hongtao Xie, Yuxin Wang, Chenggang Yan, Yongdong Zhang
Scene Text Spotting Bidirectional Correspondence Powerful Language Model Scene Text Recognition Legal Autonomy Language Model

August 5, 2022

GLASS: Global to Local Attention for Scene-Text Spotting
Roi Ronen, Shahar Tsiper, Oron Anschel, Inbal Lavi, Amir Markovitz, R. Manmatha
Text Spotting Feature Map Oxide GLASS Text Detection Global Attention Local Context Scene Text Spotting

March 19, 2022

SwinTextSpotter: Scene Text Spotting via Better Synergy between Text Detection and Text Recognition
Mingxin Huang, Yuliang Liu, Zhenghao Peng, Chongyu Liu, Dahua Lin, Shenggao Zhu, Nicholas Yuan, Kai Ding, Lianwen Jin
Text Recognition Text Detection Model Synergy Text Localization Scene Text Spotting Scene Text Detection Multilingual Dataset Scene Text

March 10, 2022

DEER: Detection-agnostic End-to-End Recognizer for Scene Text Spotting
Seonghyeon Kim, Seung Shin, Yoonsik Kim, Han-Cheol Cho, Taeho Kil, Jaeheung Surh, Seunghyun Park, Bado Lee, Youngmin Baek
Text Shape Scene Text Scene Text Spotting End to End Fully Specialized Detector

Scene Text Spotting

Papers

TextInPlace: Indoor Visual Place Recognition in Repetitive Structures with Scene Text Spotting and Verification

InstructOCR: Instruction Boosting Scene Text Spotting

TextBlockV2: Towards Precise-Detection-Free Scene Text Spotting with Pre-trained Language Model

Efficiently Leveraging Linguistic Priors for Scene Text Spotting

SwinTextSpotter v2: Towards Better Synergy for Scene Text Spotting

Inverse-like Antagonistic Scene Text Spotting via Reading-Order Estimation and Dynamic Sampling

Word length-aware text spotting: Enhancing detection and recognition in dense text image

Harnessing the Power of Multi-Lingual Datasets for Pre-training: Towards Enhancing Text Spotting Performance

STEP -- Towards Structured Scene-Text Spotting

ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy in Transformer

A3S: Adversarial learning of semantic representations for Scene-Text Spotting

SPTS v2: Single-Point Scene Text Spotting

ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Spotting

GLASS: Global to Local Attention for Scene-Text Spotting

SwinTextSpotter: Scene Text Spotting via Better Synergy between Text Detection and Text Recognition

DEER: Detection-agnostic End-to-End Recognizer for Scene Text Spotting