Novel Benchmark

April 25, 2024

Benchmarking Mobile Device Control Agents across Diverse Configurations
Juyong Lee, Taywon Min, Minyong An, Dongyoon Hahm, Haeone Lee, Changyeon Kim, Kimin Lee
Autonomous Agent Multi Modal Large Language Model Mobile Device Novel Benchmark Diverse Agent User Defined Configuration
Real-Time 4K Super-Resolution of Compressed AVIF Images. AIS 2024 Challenge Survey
Marcos V. Conde, Zhijun Lei, Wen Li, Cosmin Stejerean, Ioannis Katsavounidis, Radu Timofte, Kihwan Yoon, Ganzorig Gankhuyag, Jiangtao Lv, Long Sun, Jinshan Pan, Jiangxin Dong, Jinhui Tang, Zhiyuan Li, Hao Wei, Chenyang Ge, Dongyang Zhang, Tianle Liu, Huaian Chen, Yi Jin, Menghan Zhou, Yiqiang Yan, Si Gao, Biao Wu, Shaoli Liu, Chengjian Zheng, Diankai Zhang, Ning Wang, Xintao Qiu, Yuanbo Zhou, Kongxian Wu, Xinwei Dai, Hui Tang, Wei Deng, Qingquan Gao, Tong Tong, Jae-Hyeon Lee, Ui-Jin Choi, Min Yan, Xin Liu, Qian Wang, Xiaoqian Ye, Zhan Du, Tiansen Zhang, Long Peng, Jiaming Guo, Xin Di, Bohao Liao, Zhibo Du, Peize Xia, Renjing Pei, Yang Wang, Yang Cao, Zhengjun Zha, Bingnan Han, Hongyuan Yu, Zhuoyuan Wu, Cheng Wan, Yuqing Liu, Haodong Yu, Jizhe Li, Zhijuan Huang, Yuan Huang, Yajun Zou, Xianyu Guan, Qi Jia, Heng Zhang, Xuanwu Yin, Kunlong Zuo, Hyeon-Cheol Moon, Tae-hyun Jeong, Yoonmo Yang, Jae-Gon Kim, Jinwoo Jeong, Sunjei Kim
Super Resolution Real Time Image Compression Novel Benchmark Image Codecs Core Challenge

April 19, 2024

CyberSecEval 2: A Wide-Ranging Cybersecurity Evaluation Suite for Large Language Models
Manish Bhatt, Sahana Chennabasappa, Yue Li, Cyrus Nikolaidis, Daniel Song, Shengye Wan, Faizan Ahmad, Cornelius Aschermann, Yaohui Chen, Dhaval Kapil, David Molnar, Spencer Whitman, Joshua Saxe
LLM Safety Software Vulnerability Novel Benchmark Code Interpreter Evaluation Suite

April 10, 2024

Multi-Label Continual Learning for the Medical Domain: A Novel Benchmark
Marina Ceccon, Davide Dalle Pezze, Alessandro Fabris, Gian Antonio Susto
Multi Label Class Incremental Learning Pseudo Labeling Medical Domain Multi Label Image Classification Novel Benchmark Domain Incremental Learning Latent Replay

March 16, 2024

Urban Sound Propagation: a Benchmark for 1-Step Generative Modeling of Complex Physical Systems
Martin Spitznagel, Janis Keuper
New Benchmark Novel Benchmark Complex Physical System Sound Propagation

March 6, 2024

PPTC-R benchmark: Towards Evaluating the Robustness of Large Language Models for PowerPoint Task Completion
Zekai Zhang, Yiduo Guo, Yaobo Liang, Dongyan Zhao, Nan Duan
Large Language Model Language Model Native Robustness Novel Benchmark Task Completion

February 27, 2024

From Text Segmentation to Smart Chaptering: A Novel Benchmark for Structuring Video Transcriptions
Fabian Retkowski, Alexander Waibel
Natural Language Processing Unstructured Text Video Text Novel Benchmark Text Segmentation Hierarchical Segmentation Text Segment Chapter to Chapter

February 6, 2024

SceMQA: A Scientific College Entrance Level Multimodal Question Answering Benchmark
Zhenwen Liang, Kehan Guo, Gang Liu, Taicheng Guo, Yujun Zhou, Tianyu Yang, Jiajun Jiao, Renjie Pi, Jipeng Zhang, Xiangliang Zhang
Multimodal Large Language Model Reasoning Capability Novel Benchmark Multimodal Question

January 30, 2024

Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios
Shijue Huang, Wanjun Zhong, Jianqiao Lu, Qi Zhu, Jiahui Gao, Weiwen Liu, Yutai Hou, Xingshan Zeng, Yasheng Wang, Lifeng Shang, Xin Jiang, Ruifeng Xu, Qun Liu
Large Language Model Natural Language Task Planning Greater Public Use Novel Benchmark

January 20, 2024

A Novel Benchmark for Few-Shot Semantic Segmentation in the Era of Foundation Models
Reda Bensaid, Vincent Gripon, François Leduc-Primeau, Lukas Mauch, Ghouthi Boukli Hacene, Fabien Cardinaux
Semantic Segmentation Computer Vision Foundation Model Masked Autoencoders New Era COCO Dataset Segment Anything Shot Semantic Segmentation Novel Benchmark

January 10, 2024

Watermark Text Pattern Spotting in Document Images
Mateusz Krubiński, Stefan Matcovici, Diana Grigore, Daniel Voinea, Alin-Ionut Popa
Document Image K Content Novel Benchmark Text Watermarking

January 8, 2024

PythonSaga: Redefining the Benchmark to Evaluate Code Generating LLM
Ankit Yadav, Mayank Singh
Large Language Model New Benchmark Code Generation Model Performance Novel Benchmark

December 11, 2023

EQ-Bench: An Emotional Intelligence Benchmark for Large Language Models
Samuel J. Paech
MT Bench Novel Benchmark Multi Domain Benchmark Emotional Intelligence Emotion Prediction Benchmark

November 16, 2023

KnowledgeMath: Knowledge-Intensive Math Word Problem Solving in Finance Domains
Yilun Zhao, Hongjun Liu, Yitao Long, Rui Zhang, Chen Zhao, Arman Cohan
Domain Specific Math Word Problem Novel Benchmark Financial Domain Tool Augmented LLM

November 15, 2023

GRASP: A novel benchmark for evaluating language GRounding And Situated Physics understanding in multimodal language models
Serwan Jassim, Mario Holubar, Annika Richter, Cornelius Wolff, Xenia Ohmer, Elia Bruni
Multimodal Large Language Model Grasp Anything Language Grounding Multimodal Language Model Physical Reasoning Novel Benchmark Situated Reasoning Intuitive Physic

October 25, 2023

CoheSentia: A Novel Benchmark of Incremental versus Holistic Assessment of Coherence in Generated Texts
Aviya Maimon, Reut Tsarfaty
Generated Text Discourse Coherence Novel Benchmark Holistic Evaluation Coherence Evaluation

October 11, 2023

ADMEOOD: Out-of-Distribution Benchmark for Drug Property Prediction
Shuoying Wei, Xinlong Wen, Lida Zhu, Songquan Li, Rongbo Zhu
Distribution Data Property Prediction Novel Benchmark Drug Feature Drug Molecule Distribution Benchmark

September 29, 2023

Towards Complex-query Referring Image Segmentation: A Novel Benchmark
Wei Ji, Li Li, Hao Fei, Xiangyan Liu, Xun Yang, Juncheng Li, Roger Zimmermann
Semantic Understanding Referring Image Segmentation Novel Benchmark Visual Genome

July 24, 2023

Automatic Infant Respiration Estimation from Video: A Deep Flow-based Algorithm and a Novel Public Benchmark
Sai Kumar Reddy Manne, Shaotong Zhu, Sarah Ostadabbas, Michael Wan
Source Video Flow Based Novel Benchmark Respiratory Rate

June 16, 2023

LabelBench: A Comprehensive Framework for Benchmarking Adaptive Label-Efficient Learning
Jifan Zhang, Yifang Chen, Gregory Canal, Stephen Mussmann, Arnav M. Das, Gantavya Bhatt, Yinglun Zhu, Jeffrey Bilmes, Simon Shaolei Du, Kevin Jamieson, Robert D Nowak
Semi Supervised Learning Novel Benchmark Label Efficient Labeling Function

Papers

Benchmarking Mobile Device Control Agents across Diverse Configurations

Real-Time 4K Super-Resolution of Compressed AVIF Images. AIS 2024 Challenge Survey

CyberSecEval 2: A Wide-Ranging Cybersecurity Evaluation Suite for Large Language Models

Multi-Label Continual Learning for the Medical Domain: A Novel Benchmark

Urban Sound Propagation: a Benchmark for 1-Step Generative Modeling of Complex Physical Systems

PPTC-R benchmark: Towards Evaluating the Robustness of Large Language Models for PowerPoint Task Completion

From Text Segmentation to Smart Chaptering: A Novel Benchmark for Structuring Video Transcriptions

SceMQA: A Scientific College Entrance Level Multimodal Question Answering Benchmark

Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios

A Novel Benchmark for Few-Shot Semantic Segmentation in the Era of Foundation Models

Watermark Text Pattern Spotting in Document Images

PythonSaga: Redefining the Benchmark to Evaluate Code Generating LLM

EQ-Bench: An Emotional Intelligence Benchmark for Large Language Models

KnowledgeMath: Knowledge-Intensive Math Word Problem Solving in Finance Domains

GRASP: A novel benchmark for evaluating language GRounding And Situated Physics understanding in multimodal language models

CoheSentia: A Novel Benchmark of Incremental versus Holistic Assessment of Coherence in Generated Texts

ADMEOOD: Out-of-Distribution Benchmark for Drug Property Prediction

Towards Complex-query Referring Image Segmentation: A Novel Benchmark

Automatic Infant Respiration Estimation from Video: A Deep Flow-based Algorithm and a Novel Public Benchmark

LabelBench: A Comprehensive Framework for Benchmarking Adaptive Label-Efficient Learning