Benchmark Dataset

Benchmark datasets are curated collections of data designed to rigorously evaluate the performance of algorithms and models across various scientific domains. Current research focuses on developing datasets for diverse tasks, including multimodal data analysis (e.g., combining image, text, and audio data), challenging scenarios like low-resource languages or complex biological images, and addressing issues like model hallucinations and bias. These datasets are crucial for fostering objective comparisons, identifying limitations in existing methods, and driving advancements in machine learning and related fields, ultimately leading to more robust and reliable applications in diverse sectors.

Papers

July 25, 2024

July 21, 2024

A Benchmark Dataset for Multimodal Prediction of Enzymatic Function Coupling DNA Sequences and Natural Language
Yuchen Zhang, Ratish Kumar Chandrakant Jha, Soumya Bharadwaj, Vatsal Sanjaykumar Thakkar, Adrienne Hoarfrost, Jin Sun
Natural Language Benchmark Dataset Multimodal Prediction Function Prediction

July 14, 2024

July 8, 2024

InsightBench: Evaluating Business Analytics Agents Through Multi-Step Insight Generation
Gaurav Sahu, Abhay Puri, Juan Rodriguez, Amirhossein Abaskohi, Mohammad Chegini, Alexandre Drouin, Perouz Taslakian, Valentina Zantedeschi, Alexandre Lacoste, David Vazquez, Nicolas Chapados, Christopher Pal, Sai Rajeswar Mudumba, Issam Hadj Laradji
Benchmark Dataset Data Analytics Insight Generation Data Analysis Agent

July 6, 2024

DailyDVS-200: A Comprehensive Benchmark Dataset for Event-Based Action Recognition
Qi Wang, Zhou Xu, Yuming Lin, Jingtao Ye, Hongsheng Li, Guangming Zhu, Syed Afaq Ali Shah, Mohammed Bennamoun, Liang Zhang
Benchmark Dataset Event Based Action Recognition Neuromorphic Dataflow

July 5, 2024

Towards Automated Functional Equation Proving: A Benchmark Dataset and A Domain-Specific In-Context Agent
Mahdi Buali, Robert Hoehndorf
Context Learning LLM Based Benchmark Dataset Theorem Proving Domain Specific Heuristic Proof Strategy

July 3, 2024

Celeb-FBI: A Benchmark Dataset on Human Full Body Images and Age, Gender, Height and Weight Estimation using Deep Learning Approach
Pronay Debnath, Usafa Akther Rifa, Busra Kamal Rafa, Ali Haider Talukder Akib, Md. Aminur Rahman
Data Set Deep Learning Approach Benchmark Dataset Full Body Weight Estimation

July 1, 2024

CVLUE: A New Benchmark Dataset for Chinese Vision-Language Understanding Evaluation
Yuxuan Wang, Yijun Liu, Fei Yu, Chen Huang, Kexin Li, Zhiguo Wan, Wanxiang Che
Vision Language Benchmark Dataset

June 25, 2024

XAMI -- A Benchmark Dataset for Artefact Detection in XMM-Newton Optical Images
Elisabeta-Iulia Dima, Pablo Gómez, Sandor Kruk, Peter Kretschmar, Simon Rosen, Călin-Adrian Popa
Benchmark Dataset X Ray Astronomical Data Accurate Detection Artefact Detection

June 21, 2024

FT-AED: Benchmark Dataset for Early Freeway Traffic Anomalous Event Detection
Austin Coursey, Junyi Ji, Marcos Quinones-Grueiro, William Barbour, Yuhang Zhang, Tyler Derr, Gautam Biswas, Daniel B. Work
Anomaly Detection Benchmark Dataset Traffic Datasets Radar Data Transportation Research

June 20, 2024

June 19, 2024

SD-Eval: A Benchmark Dataset for Spoken Dialogue Understanding Beyond Words
Junyi Ao, Yuancheng Wang, Xiaohai Tian, Dekun Chen, Jun Zhang, Lu Lu, Yuxuan Wang, Haizhou Li, Zhizheng Wu
Language Model Speech Analysis Benchmark Dataset Speech Data Speaker Diarization Word List Dialogue Understanding

June 17, 2024

FinTruthQA: A Benchmark Dataset for Evaluating the Quality of Financial Information Disclosure
Ziyue Xu, Peilin Zhou, Xinyu Shi, Jiageng Wu, Yikang Jiang, Dading Chong, Bin Ke, Jie Yang
Benchmark Dataset Quality Issue Financial Question Answering Corporate Disclosure

June 13, 2024

DefAn: Definitive Answer Dataset for LLMs Hallucination Evaluation
A B M Ashikur Rahman, Saeed Anwar, Muhammad Usman, Ajmal Mian
Benchmark Dataset Model Hallucination Language Model Hallucination Generative Prowess