Data Set

Datasets are crucial for training and evaluating machine learning models, particularly in areas like natural language processing, computer vision, and audio analysis. Current research emphasizes creating diverse and high-quality datasets addressing specific challenges, such as data imbalance, cross-lingual inconsistencies, and the need for realistic representations of real-world scenarios. This involves developing novel annotation techniques, incorporating multiple data modalities (e.g., text, images, audio), and employing various model architectures (e.g., transformers, convolutional neural networks) for analysis and benchmark creation. The availability of well-designed datasets directly impacts the development of robust and reliable machine learning models, ultimately advancing scientific understanding and improving practical applications across numerous fields.

Papers

October 16, 2024

SF-Speech: Straightened Flow for Zero-Shot Voice Clone on Small-Scale Dataset
Xuyuan Li, Zengqiang Shang, Hua Hua, Peiyang Shi, Chen Yang, Li Wang, Pengyuan Zhang
Data Set Shot Voice Cloning

October 15, 2024

October 14, 2024

October 12, 2024

Declarative Knowledge Distillation from Large Language Models for Visual Question Answering Datasets
Thomas Eiter, Jan Hadl, Nelson Higuera, Johannes Oetsch
Knowledge Distillation Data Set Visual Question Answering Yes No Question

October 11, 2024

October 10, 2024

Packing Analysis: Packing Is More Appropriate for Large Models or Datasets in Supervised Fine-tuning
Shuhe Wang, Guoyin Wang, Yizhong Wang, Jiwei Li, Eduard Hovy, Chen Guo
Data Set Fine Tuning Large Model Supervised Fine Tuning Efficient Hardware Online Packing

October 9, 2024

Herald: A Natural Language Annotated Lean 4 Dataset
Guoxiong Gao, Yutong Wang, Jiedong Jiang, Qi Gao, Zihan Qin, Tianyi Xu, Bin Dong
Data Set Translation Datasets Lean Blowout Proof Generation Formalization Paper Natural Language Annotation

October 8, 2024

October 7, 2024

EgoOops: A Dataset for Mistake Action Detection from Egocentric Videos with Procedural Texts
Yuto Haneji, Taichi Nishimura, Hirotaka Kameko, Keisuke Shirai, Tomoya Yoshida, Keiya Kajimura, Koki Yamamoto, Taiyu Cui, Tomohiro Nishimoto, Shinsuke Mori
Data Set Egocentric Video Human Answer Mistake Ego4D Dataset Error Classification Procedural Text

October 6, 2024

Upsample or Upweight? Balanced Training on Heavily Imbalanced Datasets
Tianjian Li, Haoran Xu, Weiting Tan, Kenton Murray, Daniel Khashabi
Language Model Data Set Gradient Descent Stochastic Gradient Descent Low Resource Language Balancing Weight High Quality Data Upsampling Operation

October 5, 2024

ETHcavation: A Dataset and Pipeline for Panoptic Scene Understanding and Object Tracking in Dynamic Construction Environments
Lorenzo Terenzi, Julian Nubert, Pol Eyschen, Pascal Roth, Simin Fei, Edo Jelavic, Marco Hutter
Data Set Panoptic Segmentation Dynamic Object Panoptic Mapping Panoptic Scene

October 4, 2024

Data Set

Papers

SF-Speech: Straightened Flow for Zero-Shot Voice Clone on Small-Scale Dataset

NesTools: A Dataset for Evaluating Nested Tool Learning Abilities of Large Language Models

Advancements in Visual Language Models for Remote Sensing: Datasets, Capabilities, and Enhancement Techniques

PRACTIQ: A Practical Conversational Text-to-SQL dataset with Ambiguous and Unanswerable Queries

BookWorm: A Dataset for Character Description and Analysis

BanglaQuAD: A Bengali Open-domain Question Answering Dataset

Declarative Knowledge Distillation from Large Language Models for Visual Question Answering Datasets

Fine-Tuning In-House Large Language Models to Infer Differential Diagnosis from Radiology Reports

Data Processing for the OpenGPT-X Model Family

Packing Analysis: Packing Is More Appropriate for Large Models or Datasets in Supervised Fine-tuning

Herald: A Natural Language Annotated Lean 4 Dataset

ERVQA: A Dataset to Benchmark the Readiness of Large Vision Language Models in Hospital Environments

POLIPHONE: A Dataset for Smartphone Model Identification from Audio Recordings

EgoOops: A Dataset for Mistake Action Detection from Egocentric Videos with Procedural Texts

Upsample or Upweight? Balanced Training on Heavily Imbalanced Datasets

ETHcavation: A Dataset and Pipeline for Panoptic Scene Understanding and Object Tracking in Dynamic Construction Environments

Multi-Dialect Vietnamese: Task, Dataset, Baseline Models and Challenges

CoCoLoFa: A Dataset of News Comments with Common Logical Fallacies Written by LLM-Assisted Crowds

CoCoHD: Congress Committee Hearing Dataset

Multilingual Topic Classification in X: Dataset and Analysis