Metadata Extraction

Metadata extraction aims to automatically identify and extract key information from diverse data sources, improving searchability and analysis. Current research focuses on developing robust methods using machine learning, including deep learning models like transformers and techniques leveraging layout analysis of documents (e.g., PDFs) and multimodal data integration (combining text and image information). These advancements are crucial for managing the ever-increasing volume of digital data in various fields, from cultural heritage preservation to scientific research, enabling more efficient data discovery and knowledge synthesis.

Papers

January 9, 2025

Comparison of Feature Learning Methods for Metadata Extraction from PDF Scholarly Documents
Zeyd Boukhers, Cong Yang
Consistent Comparison Feature Learning Metadata Information Deep Template Scholarly Document PDF Document Scientific Document Metadata Extraction

November 8, 2024

Web Archives Metadata Generation with GPT-4o: Challenges and Insights
Abigail Yongping Huang, Ashwin Nair, Zhen Rong Goh, Tianrui Liu
Technical Challenge DCU Insight AQ GPT 4 Metadata Information Metadata Extraction

October 13, 2024

Author Unknown: Evaluating Performance of Author Extraction Libraries on Global Online News Articles
Sriharsha Hatwar, Virginia Partridge, Rahul Bhargava, Fernando Bermejo
Large Corpus System Performance Authorship Attribution Automatic Extraction Online Newspaper Metadata Extraction

July 9, 2024

Microsoft Cloud-based Digitization Workflow with Rich Metadata Acquisition for Cultural Heritage Objects
Krzysztof Kutt, Jakub Gomułka, Luiz do Valle Miranda, Grzegorz J. Nalepa
Metadata Information User Digitization Metadata Extraction

November 28, 2023

Automatic Recognition of Learning Resource Category in a Digital Library
Soumya Banerjee, Debarshi Kumar Sanyal, Samiran Chattopadhyay, Plaban Kumar Bhowmick, Partha Pratim Das
Visual Recognition Document Image Heterogeneous Learning Document Image Classification Learning Resource Diverse Document Metadata Extraction Digital Library

November 8, 2023

Automated Annotation of Scientific Texts for ML-based Keyphrase Extraction and Validation
Oluwamayowa O. Amusat, Harshad Hegde, Christopher J. Mungall, Anna Giannakou, Neil P. Byers, Dan Gunter, Kjiersten Fagnan, Lavanya Ramakrishnan
External Validation Keyphrase Extraction Automatic Annotation Microbiome Research Metadata Extraction

December 5, 2022

Building Metadata Inference Using a Transducer Based Language Model
David Waterworth, Subbu Sethuvenkatraman, Quan Z. Sheng
Machine Translation Transformer Language Model Sequence Labeling Sequence to Sequence Task Metadata Extraction

September 20, 2022

Metadata Archaeology: Unearthing Data Subsets by Leveraging Training Dynamics
Shoaib Ahmed Siddiqui, Nitarshan Rajkumar, Tegan Maharaj, David Krueger, Sara Hooker
Data Set Data Quality Training Dynamic Metadata Information Subset Selection Minority Sample Metadata Extraction

March 9, 2022

An Environmental Feature Representation in I-vector Space for Room Verification and Metadata Estimation
Desmond Caulley
Verification Task Signal to Noise Ratio X Vector Speaker Identification Environment Representation Vector Space Metadata Extraction

December 23, 2021

LAME: Layout Aware Metadata Extraction Approach for Research Articles
Jongyun Choi, Hyesoo Kong, Hwamook Yoon, Heung-Seon Oh, Yuchul Jung
Optimal Layout Research Paper Metadata Extraction

November 10, 2021

Multimodal Approach for Metadata Extraction from German Scientific Publications
Azeddine Bouabdallah, Jorge Gavilan, Jennifer Gerbl, Prayuth Patumcharoenpol
Multimodal Approach Metadata Information Metadata Extraction