Data Set

Datasets are crucial for training and evaluating machine learning models, particularly in areas like natural language processing, computer vision, and audio analysis. Current research emphasizes creating diverse and high-quality datasets addressing specific challenges, such as data imbalance, cross-lingual inconsistencies, and the need for realistic representations of real-world scenarios. This involves developing novel annotation techniques, incorporating multiple data modalities (e.g., text, images, audio), and employing various model architectures (e.g., transformers, convolutional neural networks) for analysis and benchmark creation. The availability of well-designed datasets directly impacts the development of robust and reliable machine learning models, ultimately advancing scientific understanding and improving practical applications across numerous fields.

1086papers

Papers - Page 38

November 29, 2023

360Loc: A Dataset and Benchmark for Omnidirectional Visual Localization with Cross-device Queries
Huajian Huang, Changkun Liu, Yipeng Zhu, Hui Cheng, Tristan Braud, Sai-Kit Yeung
New Benchmark Based Visual Localization Omnidirectional Visual Data Set

November 27, 2023

November 24, 2023

SER_AMPEL: a multi-source dataset for speech emotion recognition of Italian older adults
Alessandra Grossi, Francesca Gasparini
Speech Emotion Recognition Natural Conversation Multi Source Data Set Italian Language Experienced Emotion

November 23, 2023

When is Off-Policy Evaluation (Reward Modeling) Useful in Contextual Bandits? A Data-Centric Perspective
Hao Sun, Alex J. Chan, Nabeel Seedat, Alihan Hüyük, Mihaela van der Schaar
Policy Evaluation Offline Dataset Data Set Healthcare Datasets Data Centric

November 21, 2023

DMLR: Data-centric Machine Learning Research -- Past, Present and Future
Luis Oala, Manil Maskey, Lilith Bat-Leah, Alicia Parrish, Nezihe Merve Gürel, Tzu-Sheng Kuo, Yang Liu, Rotem Dror, Danilo Brajovic, Xiaozhe Yao+28
Future Reasoning Data Set Data Centric Speech Presence Collective Control

November 20, 2023

November 19, 2023

November 17, 2023

Sinhala-English Word Embedding Alignment: Introducing Datasets and Benchmark for a Low Resource Language
Kasun Wickramasinghe, Nisansa de Silva
New Benchmark Data Set Resource Language Pair Low Resource Language Sinhala Language Facebook Data Alignment Problem

November 16, 2023

GSAP-NER: A Novel Task, Corpus, and Baseline for Scholarly Entity Extraction Focused on Machine Learning Models and Datasets
Wolfgang Otto, Matthäus Zloch, Lu Gan, Saurav Karmakar, Stefan Dietze
Entity Recognition Data Set BERT Model Large Corpus Named Entity Recognition Machine Learning Model NLP Task Scholarly Information Extraction

November 15, 2023

November 14, 2023

Exploring Variational Auto-Encoder Architectures, Configurations, and Datasets for Generative Music Explainable AI
Nick Bryan-Kinns, Bingyuan Zhang, Songyan Zhao, Berker Banar
User Defined Configuration Data Set Generative AI Model Music Generation

November 13, 2023

November 12, 2023

Unified machine learning tasks and datasets for enhancing renewable energy
Arsam Aryandoust, Thomas Rigoni, Francesco di Stefano, Anthony Patt
Data Set Parameterized Model Energy Transition Renewable Energy

Data Set

Papers - Page 38

360Loc: A Dataset and Benchmark for Omnidirectional Visual Localization with Cross-device Queries

DUnE: Dataset for Unified Editing

Tell2Design: A Dataset for Language-Guided Floor Plan Generation

Fully Authentic Visual Question Answering Dataset from Online Communities

SER_AMPEL: a multi-source dataset for speech emotion recognition of Italian older adults

When is Off-Policy Evaluation (Reward Modeling) Useful in Contextual Bandits? A Data-Centric Perspective

DMLR: Data-centric Machine Learning Research -- Past, Present and Future

SniffyArt: The Dataset of Smelling Persons

Multi-Task Faces (MTF) Data Set: A Legally and Ethically Compliant Collection of Face Images for Various Classification Tasks

A Large-Scale Car Parts (LSCP) Dataset for Lightweight Fine-Grained Detection

RflyMAD: A Dataset for Multicopter Fault Detection and Health Assessment

Unmasking and Improving Data Credibility: A Study with Datasets for Training Harmless Language Models

Sinhala-English Word Embedding Alignment: Introducing Datasets and Benchmark for a Low Resource Language

GSAP-NER: A Novel Task, Corpus, and Baseline for Scholarly Entity Extraction Focused on Machine Learning Models and Datasets

MAVEN-Arg: Completing the Puzzle of All-in-One Event Understanding Dataset with Event Argument Annotation

The Uli Dataset: An Exercise in Experience Led Annotation of oGBV

Exploring Variational Auto-Encoder Architectures, Configurations, and Datasets for Generative Music Explainable AI

PolyIE: A Dataset of Information Extraction from Polymer Material Scientific Literature

Transpose Attack: Stealing Datasets with Bidirectional Training

Unified machine learning tasks and datasets for enhancing renewable energy