Medical Question Answering Benchmark

Medical question answering (MQA) benchmarks are crucial for evaluating the performance of large language models (LLMs) in healthcare, focusing on accuracy, reasoning, and explainability within the medical domain. Current research emphasizes developing comprehensive benchmarks with diverse question types and multiple explanations, often incorporating retrieval-augmented generation (RAG) and graph-based methods to improve accuracy and reliability, and exploring smaller, more computationally efficient models for wider accessibility. These advancements are vital for building trustworthy and clinically useful AI systems, ultimately improving patient care and medical research.

Papers

November 8, 2024

SM3-Text-to-Query: Synthetic Multi-Model Medical Text-to-Query Benchmark
Sithursan Sivasubramaniam, Cedric Osei-Akoto, Yi Zhang, Kurt Stockinger, Jonathan Fuerst
Text to SQL Large Scale Synthetic SPARQL Query Medical Question Answering Benchmark

September 23, 2024

A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?
Yunfei Xie, Juncheng Wu, Haoqin Tu, Siwei Yang, Bingchen Zhao, Yongshuo Zong, Qiao Jin, Cihang Xie, Yuyin Zhou
Large Language Model Preliminary Study OpenAI Codex Real World Clinical Medical Question Answering Benchmark AI Doctor

September 18, 2024

Development and bilingual evaluation of Japanese medical large language model within reasonably low computational resources
Issey Sukeda
Large Language Model Development Activity Multilingual Evaluation Cross Lingual Knowledge Transfer English Centric Low Computational Medical Question Answering Benchmark

September 5, 2024

Revolutionizing Database Q&A with Large Language Models: Comprehensive Benchmark and Evaluation
Yihang Zheng, Bo Li, Zhenghao Lin, Yi Luo, Xuanhe Zhou, Chen Lin, Jinsong Su, Guoliang Li, Shifu Li
Global Evaluation Comprehensive Benchmark SQL Query Medical Question Answering Benchmark

August 8, 2024

Medical Graph RAG: Towards Safe Medical Large Language Model via Graph Retrieval-Augmented Generation
Junde Wu, Jiayuan Zhu, Yunli Qi, Jingkun Chen, Min Xu, Filippo Menolascina, Vicente Grau
Graph Drawing Retrieval Augmented Generation Information Retrieval Medical Domain Medical Large Language Model Medical Question Answering Benchmark Graph Retrieval Augmented Generation

June 10, 2024

MedExQA: Medical Question Answering Benchmark with Multiple Explanations
Yunsoo Kim, Jinge Wu, Yusuf Abdulle, Honghan Wu
Large Language Model Medical Text Explanation Generation Medical Question Answering Plausible Explanation Medical Question Answering Benchmark

June 3, 2024

MedFuzz: Exploring the Robustness of Large Language Models in Medical Question Answering
Robert Osazuwa Ness, Katie Matton, Hayden Helm, Sheng Zhang, Junaid Bajwa, Carey E. Priebe, Eric Horvitz
Large Language Model Native Robustness Medical Question Answering Fuzz Testing Adversarial Method Medical Question Answering Benchmark

May 12, 2024

MedConceptsQA: Open Source Medical Concepts QA Benchmark
Ofir Ben Shoham, Nadav Rappoport
Large Language Model Medical Question Answering Benchmark

January 25, 2024

K-QA: A Real-World Medical Q&A Benchmark
Itay Manes, Naama Ronn, David Cohen, Ran Ilan Ber, Zehavi Horowitz-Kugler, Gabriel Stanovsky
Large Language Model NLP Application Medical Question Answering Benchmark Recall@K Metric

April 27, 2023

PMC-LLaMA: Towards Building Open-source Language Models for Medicine
Chaoyi Wu, Weixiong Lin, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie
Language Understanding Medical Question Answering Open Source Language Model Medical Question Answering Benchmark