Data Set

Datasets are crucial for training and evaluating machine learning models, particularly in areas like natural language processing, computer vision, and audio analysis. Current research emphasizes creating diverse and high-quality datasets addressing specific challenges, such as data imbalance, cross-lingual inconsistencies, and the need for realistic representations of real-world scenarios. This involves developing novel annotation techniques, incorporating multiple data modalities (e.g., text, images, audio), and employing various model architectures (e.g., transformers, convolutional neural networks) for analysis and benchmark creation. The availability of well-designed datasets directly impacts the development of robust and reliable machine learning models, ultimately advancing scientific understanding and improving practical applications across numerous fields.

Papers

December 2, 2024

AI Benchmarks and Datasets for LLM Evaluation
Todor Ivanov, Valeri Penchev
Data Set AI System AI Safety Artificial Intelligence Act

December 1, 2024

SEED4D: A Synthetic Ego--Exo Dynamic 4D Data Generator, Driving Dataset and Benchmark
Marius Kästingschäfer, Théo Gieruc, Sebastian Bernhard, Dylan Campbell, Eldar Insafutdinov, Eyvaz Najafli, Thomas Brox
Data Set New Benchmark 4 Dimensional Reconstruction Ego4D AudioVisual Exocentric Video Egocentric Image Egocentric 3D

November 30, 2024

DroidCall: A Dataset for LLM-powered Android Intent Invocation
Weikai Xie, Li Zhang, Shihe Wang, Rongjie Yi, Mengwei Xu
Large Language Model Language Model Data Set Multi Intent Attribute Aware

November 29, 2024

DELT: A Simple Diversity-driven EarlyLate Training for Dataset Distillation
Zhiqiang Shen, Ammar Sherif, Zeyuan Yin, Shitong Shao
Data Set Training Data Mutual Distillation Dataset Distillation Gradient Matching Global Matching Shoulder Joint

November 28, 2024

ArEEG_Words: Dataset for Envisioned Speech Recognition using EEG for Arabic Words
Hazem Darwish, Abdalrahman Al Malah, Khloud Al Jallad, Nada Ghneim
Data Set Speech Recognition EEG Signal EEG Datasets Arabic Word

November 27, 2024

November 26, 2024

November 24, 2024

Data Lineage Inference: Uncovering Privacy Vulnerabilities of Dataset Pruning
Qi Li, Cheng-Long Wang, Yinzhi Cao, Di Wang
Data Set Edge Pruning PRIvacy Leakage Privacy Risk Pruning Method Data Provenance Membership Inference Privacy Inference

November 23, 2024

Enhancing Grammatical Error Detection using BERT with Cleaned Lang-8 Dataset
Rahul Nihalani, Kushal Shah
Data Set Transformer Based Model Ticket BERT LLM Generated Error Detection Bi LSTM Language Dataset

November 22, 2024

VIVID-10M: A Dataset and Baseline for Versatile and Interactive Video Local Editing
Jiahao Hu, Tianxiong Zhong, Xuebo Wang, Boyuan Jiang, Xingye Tian, Fei Yang, Pengfei Wan, Di Zhang
Data Set Baseline Result Video Editing Versatile Approach

November 21, 2024

Data Set

Papers

AI Benchmarks and Datasets for LLM Evaluation

SEED4D: A Synthetic Ego--Exo Dynamic 4D Data Generator, Driving Dataset and Benchmark

DroidCall: A Dataset for LLM-powered Android Intent Invocation

DELT: A Simple Diversity-driven EarlyLate Training for Dataset Distillation

ArEEG_Words: Dataset for Envisioned Speech Recognition using EEG for Arabic Words

MetaphorShare: A Dynamic Collaborative Repository of Open Metaphor Datasets

Pixel-aligned RGB-NIR Stereo Imaging and Dataset for Robot Vision

Graph Neural Network for Cerebral Blood Flow Prediction With Clinical Datasets

Pre-training for Action Recognition with Automatically Generated Fractal Datasets

in-Car Biometrics (iCarB) Datasets for Driver Recognition: Face, Fingerprint, and Voice

DiagramQG: A Dataset for Generating Concept-Focused Questions from Diagrams

Event-based Spiking Neural Networks for Object Detection: A Review of Datasets, Architectures, Learning Rules, and Implementation

Brain-like emergent properties in deep networks: impact of network architecture, datasets and training

Oriented histogram-based vector field embedding for characterizing 4D CT data sets in radiotherapy

DP-CDA: An Algorithm for Enhanced Privacy Preservation in Dataset Synthesis Through Randomized Mixing

Data Lineage Inference: Uncovering Privacy Vulnerabilities of Dataset Pruning

Enhancing Grammatical Error Detection using BERT with Cleaned Lang-8 Dataset

VIVID-10M: A Dataset and Baseline for Versatile and Interactive Video Local Editing

A Dataset for Evaluating Online Anomaly Detection Approaches for Discrete Multivariate Time Series

Dressing the Imagination: A Dataset for AI-Powered Translation of Text into Fashion Outfits and A Novel KAN Adapter for Enhanced Feature Adaptation