Benchmarking Generative

Benchmarking generative models focuses on evaluating the performance and capabilities of these models across diverse tasks and domains, aiming to identify strengths, weaknesses, and areas for improvement. Current research emphasizes developing comprehensive benchmarks tailored to specific applications, such as code generation, computational thinking, and multilingual language understanding, often employing diffusion models, variational autoencoders, and large language models. These efforts are crucial for advancing the field by providing standardized evaluation metrics and facilitating the development of more robust and reliable generative models with broader applicability in various scientific and practical contexts. The resulting benchmarks help researchers compare different model architectures and identify biases, ultimately leading to more effective and responsible AI systems.

Papers

December 23, 2024

Benchmarking Generative AI Models for Deep Learning Test Input Generation
Maryam, Matteo Biagiola, Andrea Stocco, Vincenzo Riccio
Generative AI Supervised ImageNet GAN Model Faithful Generation genAI System Test Generation Deep Learning Testing Benchmarking Generative

September 26, 2024

FactorSim: Generative Simulation via Factorized Representation
Fan-Yun Sun, S. I. Harini, Angela Yi, Yihan Zhou, Alex Zook, Jonathan Tremblay, Logan Cross, Jiajun Wu, Nick Haber
Reinforcement Learning Markov Decision Process Simulation Study Structured Representation Stochastic Simulation Benchmarking Generative Complex Generative

June 14, 2024

Benchmarking Generative Models on Computational Thinking Tests in Elementary Visual Programming
Victor-Alexandru Pădurean, Adish Singla
Generative Model Visual Programming Computational Thinking Benchmarking Generative

June 7, 2024

Lifelong Learning of Video Diffusion Models From a Single Video Stream
Jason Yoo, Yingchen He, Saeid Naderiparizi, Dylan Green, Gido M. van de Ven, Geoff Pleiss, Frank Wood
Diffusion Model Video Diffusion Model Online Continual Learning Real World Video Continuous Video Benchmarking Generative

February 21, 2024

OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large Language Models
Yang Liu, Meng Xu, Shuo Wang, Liner Yang, Haoyu Wang, Zhenghao Liu, Cunliang Kong, Yun Chen, Yang Liu, Maosong Sun, Erhong Yang
Multilingual Large Language Model Benchmarking Generative

May 25, 2023

Are Diffusion Models Vision-And-Language Reasoners?
Benno Krojer, Elinor Poole-Dayan, Vikram Voleti, Christopher Pal, Siva Reddy
Generative Model Diffusion Based Generative Model Diffusion Based Model Text Conditioned Image Generation Benchmarking Generative

March 31, 2023

A Benchmark Generative Probabilistic Model for Weak Supervised Learning
Georgios Papadopoulos, Fran Silavong, Sean Moran
Pseudo Label Supervised Learning Weakly Supervised Learning High Quality Annotation Benchmarking Generative Heuristic Label

December 6, 2022

Benchmarking AutoML algorithms on a collection of synthetic classification problems
Pedro Henrique Ribeiro, Patryk Orzechowski, Joost Wagenaar, Jason H. Moore
Online autoML Golden Collection AutoML Approach AutoML Method Benchmarking Generative Auto Sklearn AutoML Benchmark

February 22, 2022

Benchmarking Generative Latent Variable Models for Speech
Jakob D. Havtorn, Lasse Borgholt, Søren Hauberg, Jes Frellsen, Lars Maaløe
Speech Analysis Speech Model Speech Domain Temporal Latent Benchmarking Generative