Benchmark Dataset

Benchmark datasets are curated collections of data designed to rigorously evaluate the performance of algorithms and models across various scientific domains. Current research focuses on developing datasets for diverse tasks, including multimodal data analysis (e.g., combining image, text, and audio data), challenging scenarios like low-resource languages or complex biological images, and addressing issues like model hallucinations and bias. These datasets are crucial for fostering objective comparisons, identifying limitations in existing methods, and driving advancements in machine learning and related fields, ultimately leading to more robust and reliable applications in diverse sectors.

Papers

October 17, 2024

UCFE: A User-Centric Financial Expertise Benchmark for Large Language Models
Yuzhe Yang, Yifei Zhang, Yan Hu, Yilin Guo, Ruoli Gan, Yueru He, Mingcong Lei, Xiao Zhang, Haining Wang, Qianqian Xie, Jimin Huang, Honghai Yu, Benyou Wang
Full Model Benchmark Dataset Human Evaluation Large Language FINancial Task

October 15, 2024

MTU-Bench: A Multi-granularity Tool-Use Benchmark for Large Language Models
Pei Wang, Yanan Wu, Zekun Wang, Jiaheng Liu, Xiaoshuai Song, Zhongyuan Peng, Ken Deng, Chenchen Zhang, Jiakai Wang, Junran Peng, Ge Zhang, Hangyu Guo, Zhaoxiang Zhang, Wenbo Su, Bo Zheng
Full Model Benchmark Dataset Large Language Multi Granularity Instruction Dataset ML Agent Bench

October 14, 2024

Building a Multivariate Time Series Benchmarking Datasets Inspired by Natural Language Processing (NLP)
Mohammad Asif Ibna Mustafa (Department of Computation, Information and Technology, Technical University of Munich, Munich, Germany), Ferdinand Heinrich (Fraunhofer Institute for Electronic Microsystems and Solid State Technologies EMFT, Machine Learning Enhanced Sensor Systems, Munich, Germany)
Natural Language Processing Benchmark Dataset Benchmark Datasets Natural Language Processing Benchmark Complex Time Series Time Series Benchmark

October 13, 2024

HARDMath: A Benchmark Dataset for Challenging Problems in Applied Mathematics
Jingxuan Fan, Sarah Martinson, Erik Y. Wang, Kaylie Hausknecht, Jonah Brenner, Danxian Liu, Nianli Peng, Corey Wang, Michael P. Brenner
Language Model Application Proficiency Benchmark Dataset Level Mathematics Open Source LLM Closed Source Model

October 12, 2024

Yesterday's News: Benchmarking Multi-Dimensional Out-of-Distribution Generalisation of Misinformation Detection Models
Ivo Verhoeven, Pushkar Mishra, Ekaterina Shutova
Strong Generalization Scientific Inference Distribution Generalization Benchmark Dataset Misinformation Claim Misinformation Detection Important News

October 11, 2024

SOAK: Same/Other/All K-fold cross-validation for estimating similarity of patterns in data subsets
Toby Dylan Hocking, Gabrielle Thibault, Cameron Scott Bodine, Paul Nelson Arellano, Alexander F Shenkin, Olivia Jasmine Lindly
Machine Learning High Similarity Benchmark Dataset Complex Pattern Cross Validation Test Set K Fold Cross Validation Data Subset Selection

September 29, 2024

Revealing Personality Traits: A New Benchmark Dataset for Explainable Personality Recognition on Dialogues
Lei Sun, Jinming Zhao, Qin Jin
Benchmark Dataset Dialogue Utterance Personality Trait Personality Recognition Explainable Face

September 25, 2024

MaViLS, a Benchmark Dataset for Video-to-Slide Alignment, Assessing Baseline Accuracy with a Multimodal Alignment Algorithm Leveraging Speech, OCR, and Visual Features
Katharina Anderer, Andreas Reich, Matthias Wölfel
Benchmark Dataset Optical Character Recognition Visual Feature Matching Accuracy Multimodal Alignment Lecture Note Lecture Video Video Alignment

September 21, 2024

OAEI-LLM: A Benchmark Dataset for Understanding Large Language Model Hallucinations in Ontology Matching
Zhangcheng Qiang, Kerry Taylor, Weiqing Wang, Jing Jiang
Large Language Model Benchmark Dataset Language Model Hallucination LLM Hallucination Ontology Alignment Ontology Matching

September 15, 2024

A Benchmark Dataset with Larger Context for Non-Factoid Question Answering over Islamic Text
Faiza Qamar, Seemab Latif, Rabia Latif
Benchmark Dataset Question Answer Pair Arabic Dialect Contextual Understanding Automatic Evaluation Metric User Query

September 14, 2024

Uddessho: An Extensive Benchmark Dataset for Multimodal Author Intent Classification in Low-Resource Bangla Language
Fatema Tuj Johora Faria, Mukaffi Bin Moin, Md. Mahfuzur Rahman, Md Morshed Alam Shanto, Asif Iftekher Fahim, Md. Moinul Hoque
Benchmark Dataset Bangla Text Human Intent Intent Classification Multimodal Intent Recognition Open Intent Detection

September 5, 2024

Entity Extraction from High-Level Corruption Schemes via Large Language Models
Panagiotis Koletsis, Panagiotis-Konstantinos Gemos, Christos Chronis, Iraklis Varlamis, Vasilis Efthymiou, Georgios Th. Papadopoulos
Language Model Benchmark Dataset Entity Extraction Corruption Level Money Laundering Ambiguous Entity

August 28, 2024

August 21, 2024

A Benchmark for AI-based Weather Data Assimilation
Wuxin Wang, Weicheng Ni, Tao Han, Taikang Yuan, Xiaoyong Li, Lei Bai, Boheng Duan, Kaijun Ren
Benchmark Dataset Data Assimilation Numerical Weather Prediction Data Driven Weather

August 19, 2024

Pedestrian Attribute Recognition: A New Benchmark Dataset and A Large Language Model Augmented Framework
Jiandong Jin, Xiao Wang, Qian Zhu, Haiyang Wang, Chenglong Li
Language Model Benchmark Dataset Multi Attribute Pedestrian Attribute Recognition Attribute Annotation Pedestrian Image

August 16, 2024

SketchRef: A Benchmark Dataset and Evaluation Metrics for Automated Sketch Synthesis
Xingyue Lin, Xingjian Hu, Shuai Peng, Jianhua Zhu, Liangcai Gao
Benchmark Dataset Evaluation Metric Sketch Synthesis Sketch Research

August 14, 2024

Cross-Platform Video Person ReID: A New Benchmark Dataset and Adaptation Approach
Shizhou Zhang, Wenlong Luo, De Cheng, Qingchun Yang, Lingyan Ran, Yinghui Xing, Yanning Zhang
Person Re Identification Benchmark Dataset VI ReID Aerial Ground Person

August 13, 2024

CTISum: A New Benchmark Dataset For Cyber Threat Intelligence Summarization
Wei Peng, Junmei Ding, Wei Wang, Lei Cui, Wei Cai, Zhiyu Hao, Xiaochun Yun
Benchmark Dataset Threat Intelligence Cybersecurity Domain

August 7, 2024

Soft-Hard Attention U-Net Model and Benchmark Dataset for Multiscale Image Shadow Removal
Eirini Cholopoulou, Dimitrios E. Diamantis, Dimitra-Christina C. Koutsiou, Dimitris K. Iakovidis
U Net Benchmark Dataset Shadow Removal

Benchmark Dataset

Papers

UCFE: A User-Centric Financial Expertise Benchmark for Large Language Models

MTU-Bench: A Multi-granularity Tool-Use Benchmark for Large Language Models

Building a Multivariate Time Series Benchmarking Datasets Inspired by Natural Language Processing (NLP)

HARDMath: A Benchmark Dataset for Challenging Problems in Applied Mathematics

Yesterday's News: Benchmarking Multi-Dimensional Out-of-Distribution Generalisation of Misinformation Detection Models

SOAK: Same/Other/All K-fold cross-validation for estimating similarity of patterns in data subsets

Revealing Personality Traits: A New Benchmark Dataset for Explainable Personality Recognition on Dialogues

MaViLS, a Benchmark Dataset for Video-to-Slide Alignment, Assessing Baseline Accuracy with a Multimodal Alignment Algorithm Leveraging Speech, OCR, and Visual Features

OAEI-LLM: A Benchmark Dataset for Understanding Large Language Model Hallucinations in Ontology Matching

A Benchmark Dataset with Larger Context for Non-Factoid Question Answering over Islamic Text

Uddessho: An Extensive Benchmark Dataset for Multimodal Author Intent Classification in Low-Resource Bangla Language

Entity Extraction from High-Level Corruption Schemes via Large Language Models

VLM4Bio: A Benchmark Dataset to Evaluate Pretrained Vision-Language Models for Trait Discovery from Biological Images

ClimDetect: A Benchmark Dataset for Climate Change Detection and Attribution

A Benchmark for AI-based Weather Data Assimilation

Pedestrian Attribute Recognition: A New Benchmark Dataset and A Large Language Model Augmented Framework

SketchRef: A Benchmark Dataset and Evaluation Metrics for Automated Sketch Synthesis

Cross-Platform Video Person ReID: A New Benchmark Dataset and Adaptation Approach

CTISum: A New Benchmark Dataset For Cyber Threat Intelligence Summarization

Soft-Hard Attention U-Net Model and Benchmark Dataset for Multiscale Image Shadow Removal