Diverse Document

Diverse document processing focuses on developing robust methods for analyzing and extracting information from a wide variety of document types, including handwritten, printed, scanned, and web-based documents, each presenting unique challenges in terms of format, language, and layout. Current research emphasizes multimodal approaches, leveraging combinations of image processing, natural language processing, and layout analysis techniques, often incorporating pre-trained models like transformers and employing innovative architectures such as hierarchical multimodal networks. These advancements are crucial for improving efficiency in tasks like document indexing, OCR, and information extraction across diverse fields, ranging from digital libraries to industrial automation.

Papers

December 10, 2024

OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations
Linke Ouyang, Yuan Qu, Hongbin Zhou, Jiawei Zhu, Rui Zhang, Qunshu Lin, Bin Wang, Zhiyuan Zhao, Man Jiang, Xiaomeng Zhao, Jin Shi, Fan Wu, Pei Chu, Minghao Liu, Zhenxiang Li, Chao Xu, Bo Zhang, Botian Shi, Zhongying Tu, Conghui He
Evaluation Datasets Document Level Information Extraction Diverse Document Full Annotation

November 15, 2024

Diachronic Document Dataset for Semantic Layout Analysis
Thibault Clérice (ALMAnaCH), Juliette Janes (ALMAnaCH), Hugo Scheithauer, Sarah Bénière (ALMAnaCH), Florian Cafiero (PSL), Laurent Romary (ALMAnaCH, DCIS), Simon Gabay, Benoît Sagot
Open Source Structured Document Semantic Layout Diverse Document Text Encoding Diachronic Corpus

April 30, 2024

DELINE8K: A Synthetic Data Pipeline for the Semantic Segmentation of Historical Documents
Taylor Archibald, Tony Martinez
Semantic Segmentation Optical Character Recognition Historical Document Document Understanding Task Synthetic Data Generation Pipeline Diverse Document

March 12, 2024

The future of document indexing: GPT and Donut revolutionize table of content processing
Degaga Wolde Feyisa, Haylemicheal Berihun, Amanuel Zewdu, Mahsa Najimoghadam, Marzieh Zare
GPT Neo Table Semantics Indexing Method Structured Information Information Extraction Task Process Data Safety Specification Diverse Document

February 28, 2024

Hierarchical Multimodal Pre-training for Visually Rich Webpage Understanding
Hongshen Xu, Lu Chen, Zihan Zhao, Da Ma, Ruisheng Cao, Zichen Zhu, Kai Yu
Information Retrieval Document Understanding Multimodal Pre Diverse Document

February 7, 2024

Enhancement of Bengali OCR by Specialized Models and Advanced Techniques for Diverse Document Types
AKM Shahariar Azad Rabby, Hasmot Ali, Md. Majedul Islam, Sheikh Abujar, Fuad Rahman
Feature Enhancement Handwritten Document Word Recognition Bengali OCR Diverse Document

December 15, 2023

WordScape: a Pipeline to extract multilingual, visually rich Documents with Layout Annotations from Web Crawl Data
Maurice Weber, Carlo Siebenschuh, Rory Butler, Anton Alexandrov, Valdemar Thanner, Georgios Tsolakis, Haris Jabbar, Ian Foster, Bo Li, Rick Stevens, Ce Zhang
Pipeline System Document Image Multilingual Corpus Document Layout Analysis Non Contiguous Piece Document Understanding Task Rich Document Web Crawled Data Diverse Document Layout Annotation

November 28, 2023

Automatic Recognition of Learning Resource Category in a Digital Library
Soumya Banerjee, Debarshi Kumar Sanyal, Samiran Chattopadhyay, Plaban Kumar Bhowmick, Partha Pratim Das
Visual Recognition Document Image Heterogeneous Learning Document Image Classification Learning Resource Diverse Document Metadata Extraction Digital Library

November 19, 2022

Combining State-of-the-Art Models with Maximal Marginal Relevance for Few-Shot and Zero-Shot Multi-Document Summarization
David Adams, Gandharv Suri, Yllias Chali
Structured Summary Multi Document Summarization Single Document Summarization Diverse Document Maximal Marginal Relevance

October 6, 2022

XDoc: Unified Pre-training for Cross-Format Document Understanding
Jingye Chen, Tengchao Lv, Lei Cui, Cha Zhang, Furu Wei
Pre Trained Model Document Understanding Unified Pre Training Diverse Document

January 24, 2022

Evaluating a Methodology for Increasing AI Transparency: A Case Study
David Piorkowski, John Richards, Michael Hind
Case Study NCD Method Deep Template User Centered Diverse Document

Diverse Document

Papers

OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations

Diachronic Document Dataset for Semantic Layout Analysis

DELINE8K: A Synthetic Data Pipeline for the Semantic Segmentation of Historical Documents

The future of document indexing: GPT and Donut revolutionize table of content processing

Hierarchical Multimodal Pre-training for Visually Rich Webpage Understanding

Enhancement of Bengali OCR by Specialized Models and Advanced Techniques for Diverse Document Types

WordScape: a Pipeline to extract multilingual, visually rich Documents with Layout Annotations from Web Crawl Data

Automatic Recognition of Learning Resource Category in a Digital Library

Combining State-of-the-Art Models with Maximal Marginal Relevance for Few-Shot and Zero-Shot Multi-Document Summarization

XDoc: Unified Pre-training for Cross-Format Document Understanding

Evaluating a Methodology for Increasing AI Transparency: A Case Study