Visually Rich Document

Visually rich documents (VRDs), containing diverse elements like text, images, tables, and charts, present a significant challenge for automated information extraction. Current research focuses on developing robust multimodal models, often leveraging transformer architectures and graph neural networks, to effectively integrate visual and textual information, addressing issues like layout understanding and reading order prediction to improve information extraction accuracy and efficiency. This field is crucial for advancing document understanding across various domains, impacting applications ranging from scientific literature analysis to business process automation.

Papers

April 28, 2023

April 24, 2023

DocParser: End-to-end OCR-free Information Extraction from Visually Rich Documents
Mohamed Dhouib, Ghassen Bettaieb, Aymen Shabou
Optical Character Recognition Visually Rich Document Document Parsing OCR Free

March 1, 2023

Cross-Modal Entity Matching for Visually Rich Documents
Ritesh Sarkhel, Arnab Nandi
Visually Rich Document Rich Document Multi Modal Entity Alignment Keyword Search Heterogeneous Document

February 6, 2023

UVDoc: Neural Grid-based Document Unwarping
Floor Verhoeven, Tanguy Magne, Olga Sorkine-Hornung
Visually Rich Document Synthetic 3D Photorealistic Dataset Tileable Texture Document Dewarping

December 20, 2022

An Augmentation Strategy for Visually Rich Documents
Jing Xie, James B. Wendt, Yichao Zhou, Seth Ebner, Sandeep Tata
Training Data Limited Field Visually Rich Document Form Like Document Novel Data Augmentation Effective Augmentation Extraction Performance

December 19, 2022

Wukong-Reader: Multi-modal Pre-training for Fine-grained Visual Document Understanding
Haoli Bai, Zhiguang Liu, Xiaojun Meng, Wentao Li, Shuang Liu, Nian Xie, Rongfu Zheng, Liangwei Wang, Lu Hou, Jiansheng Wei, Xin Jiang, Qun Liu
Contrastive Learning Fine Grained Read V Visually Rich Document Text Based Environment

November 15, 2022

VRDU: A Benchmark for Visually-rich Document Understanding
Zilong Wang, Yichao Zhou, Wei Wei, Chen-Yu Lee, Sandeep Tata
New Benchmark Structured Data Visually Rich Document Refined Schema Rich Document

October 28, 2022

Radically Lower Data-Labeling Costs for Visually Rich Document Extraction Models
Yichao Zhou, James B. Wendt, Navneet Potti, Jing Xie, Sandeep Tata
Visually Rich Document Data Labeling Extraction Model Rich Document Extraction Task Selective Labeling

October 12, 2022

ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich Document Understanding
Qiming Peng, Yinxu Pan, Wenjin Wang, Bin Luo, Zhenyu Zhang, Zhengjie Huang, Teng Hu, Weichong Yin, Yongfeng Chen, Yin Zhang, Shikun Feng, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang
Visually Rich Document Layout Representation

September 18, 2022

ERNIE-mmLayout: Multi-grained MultiModal Transformer for Document Understanding
Wenjin Wang, Zhengjie Huang, Bin Luo, Qianglong Chen, Qiming Peng, Yinxu Pan, Weichong Yin, Shikun Feng, Yu Sun, Dianhai Yu, Yin Zhang
Document Understanding Visually Rich Document ERNIE ViLG

July 14, 2022

TRIE++: Towards End-to-End Information Extraction from Visually Rich Documents
Zhanzhan Cheng, Peng Zhang, Can Li, Qiao Liang, Yunlu Xu, Pengfei Li, Shiliang Pu, Yi Niu, Fei Wu
Information Extraction Unstructured Text Visually Rich Document Textual Structure End to End Information Extraction

June 27, 2022

Bi-VLDoc: Bidirectional Vision-Language Modeling for Visually-Rich Document Understanding
Chuwei Luo, Guozhi Tang, Qi Zheng, Cong Yao, Lianwen Jin, Chenliang Li, Yang Xue, Luo Si
Vision Language Visually Rich Document

May 23, 2022

Document Intelligence Metrics for Visually Rich Document Evaluation
Jonathan DeGange, Swapnil Gupta, Zhuoyu Han, Krzysztof Wilkosz, Adam Karwan
Visually Rich Document Information Extraction Task Document Intelligence

May 5, 2022

Relational Representation Learning in Visually-Rich Documents
Xin Li, Yan Zheng, Yiqing Hu, Haoyu Cao, Yunfei Wu, Deqiang Jiang, Yinsong Liu, Bo Ren
Visually Rich Document Relational Reasoning Relational Representation Relational Representation Learning

March 14, 2022

XYLayoutLM: Towards Layout-Aware Multimodal Networks For Visually-Rich Document Understanding
Zhangxuan Gu, Changhua Meng, Ke Wang, Jun Lan, Weiqiang Wang, Ming Gu, Liqing Zhang
Visually Rich Document Multimodal Network Position Embeddings Position Encoding

February 3, 2022

DocBed: A Multi-Stage OCR Solution for Documents with Complex Layouts
Wenzhen Zhu, Negin Sokhandan, Guang Yang, Sujitha Martin, Suchitra Sathyanarayana
Optical Character Recognition Document Relevance Visually Rich Document Document Layout Analysis Layout Segmentation

November 7, 2021

Information Extraction from Visually Rich Documents with Font Style Embeddings
Ismail Oussaid, William Vanhuffel, Pirashanth Ratnamogan, Mhamed Hajaiej, Alexis Mathey, Thomas Gilles
Natural Language Processing Information Extraction Visually Rich Document Layout Representation