Document AI

Document AI focuses on automatically understanding and extracting information from diverse document types, bridging natural language processing and computer vision. Current research emphasizes multimodal models, often employing transformer architectures (like LayoutLMv3) and incorporating pre-training techniques to improve performance on tasks such as layout analysis, information extraction, and document image restoration. These advancements are driving improvements in efficiency and accuracy across various applications, from streamlining healthcare workflows to enhancing financial services and industrial processes.

Papers

December 17, 2024

DoPTA: Improving Document Layout Analysis using Patch-Text Alignment
Nikitha SR, Tarun Ram Menta, Mausoom Sarkar
Multimodal Learning Document Understanding Image Text Alignment Document Layout Analysis Document AI

November 27, 2024

Enhancing Document AI Data Generation Through Graph-Based Synthetic Layouts
Amit Agarwal, Hitesh Patel, Priyaranjan Pattnayak, Srikant Panda, Bhargava Kumar, Tejaswini Kumar
Graph Neural Network Optimal Layout Synthetic Graph Document Intelligence Document AI

August 23, 2024

DeepDiveAI: Identifying AI Related Documents in Large Scale Literature Data
Zhou Xiaochen, Liang Xingzhou, Zou Hui, Lu Yi, Qu Jingjing
Artificial Intelligence Deep Network Artificial Intelligence Research MNIST Dataset Document AI

August 17, 2024

AI Managed Emergency Documentation with a Pretrained Model
David Menzies, Sean Kirwan, Ahmad Albarqawi
Electronic Health Record Pretrained Model LLM Policy Document AI

May 27, 2024

XFormParser: A Simple and Effective Multimodal Multilingual Semi-structured Form Parser
Xianfu Cheng, Hang Zhang, Jian Yang, Xiang Li, Weixiao Zhou, Fei Liu, Kui Wu, Xiangyuan Guan, Tao Sun, Xianjie Wu, Tongliang Li, Zhoujun Li
Entity Recognition Semi Structured Document Parsing Language Structure Document AI

May 7, 2024

DocRes: A Generalist Model Toward Unifying Document Image Restoration Tasks
Jiaxin Zhang, Dezhi Peng, Chongyu Liu, Peirong Zhang, Lianwen Jin
Task Specific Model Document AI Restoration Task Document Restoration

March 27, 2024

Can AI Models Appreciate Document Aesthetics? An Exploration of Legibility and Layout Quality in Relation to Prediction Confidence
Hsiu-Wei Yang, Abhinav Agrawal, Pavlos Fragkogiannis, Shubham Nitin Mulay
Environment Exploration Optimal Layout Readability Control Prediction Confidence Document AI Document Design

January 26, 2024

LongFin: A Multimodal Document Understanding Model for Long Financial Domain Documents
Ahmed Masry, Amir Hajian
PDF Document Document AI

October 25, 2023

A Multi-Modal Multilingual Benchmark for Document Image Classification
Yoshinari Fujinuma, Siddharth Varia, Nishant Sankaran, Srikar Appalaraju, Bonan Min, Yogarshi Vyas
Multilingual Dataset Document Classification Document AI Document Image Classification Multilingual Multimodal Benchmark

October 23, 2023

DocTrack: A Visually-Rich Document Dataset Really Aligned with Human Eye Movement for Machine Reading
Hao Wang, Qingxuan Wang, Yue Li, Changqing Wang, Chenhui Chu, Rui Wang
Eye Tracking Visually Rich Document Eye Movement Document Understanding Task Document AI

August 29, 2023

June 5, 2023

ICDAR 2023 Competition on Structured Text Extraction from Visually-Rich Document Images
Wenwen Yu, Chengquan Zhang, Haoyu Cao, Wei Hua, Bohan Li, Huang Chen, Mingyu Liu, Mingrui Chen, Jianfeng Kuang, Mengjun Cheng, Yuning Du, Shikun Feng, Xiaoguang Hu, Pengyuan Lyu, Kun Yao, Yuechen Yu, Yuliang Liu, Wanxiang Che, Errui Ding, Cheng-Lin Liu, Jiebo Luo, Shuicheng Yan, Min Zhang, Dimosthenis Karatzas, Xing Sun, Jingdong Wang, Xiang Bai
Competition Platform Visually Rich Document Document AI Structured Information Extraction

May 15, 2023

Document Understanding Dataset and Evaluation (DUDE)
Jordy Van Landeghem, Rubén Tito, Łukasz Borchmann, Michał Pietruszka, Paweł Józiak, Rafał Powalski, Dawid Jurkiewicz, Mickaël Coustaty, Bertrand Ackaert, Ernest Valveny, Matthew Blaschko, Sien Moens, Tomasz Stanisławek
Data Set Global Evaluation Visually Rich Document Full Length Document Document AI Multi Domain Evaluation

December 5, 2022

Unifying Vision, Text, and Layout for Universal Document Processing
Zineng Tang, Ziyi Yang, Guoxin Wang, Yuwei Fang, Yang Liu, Chenguang Zhu, Michael Zeng, Cha Zhang, Mohit Bansal
Text Modality Optimal Layout Document AI AI Foundation Model Document Processing

April 18, 2022

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking
Yupan Huang, Tengchao Lv, Lei Cui, Yutong Lu, Furu Wei
Multimodal Pre Unified View Mask Guided Multimodal Representation Learning Document Intelligence Document AI

November 16, 2021

Document AI: Benchmarks, Models and Applications
Lei Cui, Yiheng Xu, Tengchao Lv, Furu Wei
New Benchmark Full Model Financial Application Document Intelligence Document AI Document Image Classification