Data Set

Datasets are crucial for training and evaluating machine learning models, particularly in areas like natural language processing, computer vision, and audio analysis. Current research emphasizes creating diverse and high-quality datasets addressing specific challenges, such as data imbalance, cross-lingual inconsistencies, and the need for realistic representations of real-world scenarios. This involves developing novel annotation techniques, incorporating multiple data modalities (e.g., text, images, audio), and employing various model architectures (e.g., transformers, convolutional neural networks) for analysis and benchmark creation. The availability of well-designed datasets directly impacts the development of robust and reliable machine learning models, ultimately advancing scientific understanding and improving practical applications across numerous fields.

Papers

December 12, 2024

December 9, 2024

December 6, 2024

MANTA: A Large-Scale Multi-View and Visual-Text Anomaly Detection Dataset for Tiny Objects
Lei Fan, Dongdong Fan, Zhiguang Hu, Yiwen Ding, Donglin Di, Kai Yi, Maurice Pagnucco, Yang Song
Data Set Multi View Unlabeled Anomaly Pixel Level Annotation Visual Anomaly Detection NeMo Team Coverage Optimization Tiny Object

December 5, 2024

December 4, 2024

Fan-Beam CT Reconstruction for Unaligned Sparse-View X-ray Baggage Dataset
Shin Kim
Data Set X Ray X Ray Image Computed Tomography Reconstruction Reconstruction Model Attenuation Map X Ray Imaging

December 3, 2024

December 2, 2024

Data Set

Papers

ViCaS: A Dataset for Combining Holistic and Pixel-level Video Understanding using Captions with Grounded Segmentation

Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning

MultiEYE: Dataset and Benchmark for OCT-Enhanced Retinal Disease Recognition from Fundus Images

eCARLA-scenes: A synthetically generated dataset for event-based optical flow prediction

How Certain are Uncertainty Estimates? Three Novel Earth Observation Datasets for Benchmarking Uncertainty Quantification in Machine Learning

A Pipeline and NIR-Enhanced Dataset for Parking Lot Segmentation

MANTA: A Large-Scale Multi-View and Visual-Text Anomaly Detection Dataset for Tiny Objects

Multi-cam Multi-map Visual Inertial Localization: System, Validation and Dataset

HumanEdit: A High-Quality Human-Rewarded Dataset for Instruction-based Image Editing

SynFinTabs: A Dataset of Synthetic Financial Tables for Information and Table Extraction

Hostility Detection in UK Politics: A Dataset on Online Abuse Targeting MPs

Fan-Beam CT Reconstruction for Unaligned Sparse-View X-ray Baggage Dataset

Measuring Bias of Web-filtered Text Datasets and Bias Propagation Through Training

FLAME 3 Dataset: Unleashing the Power of Radiometric Thermal UAV Imagery for Wildfire Management

Hybrid-SQuAD: Hybrid Scholarly Question Answering Dataset

Interpretable Generalized Additive Models for Datasets with Missing Values

Nemotron-CC: Transforming Common Crawl into a Refined Long-Horizon Pretraining Dataset

Patent-CR: A Dataset for Patent Claim Revision

A comprehensive review of datasets and deep learning techniques for vision in Unmanned Surface Vehicles

Linear stimulus reconstruction works on the KU Leuven audiovisual, gaze-controlled auditory attention decoding dataset