Page Classification

Page classification aims to automatically categorize individual pages within a document, enabling efficient information retrieval and analysis. Current research emphasizes developing robust models that handle diverse document types (e.g., electronic theses, legal briefs, web pages) and incorporate multimodal information (text, images, HTML structure) using techniques like multimodal deep learning, graph neural networks, and pre-trained language models. This field is crucial for managing large document collections, improving information access, and facilitating tasks such as information extraction and genealogical research.

Papers

November 7, 2023

ETDPC: A Multimodality Framework for Classifying Pages in Electronic Theses and Dissertations
Muntabir Hasan Choudhury, Lamia Salsabil, William A. Ingram, Edward A. Fox, Jian Wu
Multimodal Framework Electronic Thesis Page Classification Digital Library

August 24, 2023

Beyond Document Page Classification: Design, Datasets, and Challenges
Jordy Van Landeghem, Sanket Biswas, Matthew B. Blaschko, Marie-Francine Moens
Data Set Technical Challenge Product Design Text Classification Document Categorization Page Classification

May 9, 2023

PLM-GNN: A Webpage Classification Method based on Joint Pre-trained Language Model and Graph Neural Network
Qiwei Lang, Jingbo Zhou, Haoyi Wang, Shiqi Lyu, Rui Zhang
Machine Learning Graph Neural Network Meta Tree Web Mining Page Classification

April 27, 2023

Large Scale Genealogical Information Extraction From Handwritten Quebec Parish Records
Solène Tarride, Martin Maarand, Mélodie Boillet, James McGrath, Eugénie Capel, Hélène Vézina, Christopher Kermorvant
Entity Recognition Handwritten Text Recognition Page Classification

April 5, 2023

Context-Aware Classification of Legal Document Pages
Pavlos Fragkogiannis, Martina Forster, Grace E. Lee, Dell Zhang
Context Aware Pre Trained Transformer Legal Document Document Image Classification Page Classification

Page Classification

Papers

ETDPC: A Multimodality Framework for Classifying Pages in Electronic Theses and Dissertations

Beyond Document Page Classification: Design, Datasets, and Challenges

PLM-GNN: A Webpage Classification Method based on Joint Pre-trained Language Model and Graph Neural Network

Large Scale Genealogical Information Extraction From Handwritten Quebec Parish Records

Context-Aware Classification of Legal Document Pages