Multiple Choice

Multiple-choice question answering (MCQA) serves as a crucial benchmark for evaluating large language models (LLMs), assessing their knowledge, reasoning, and ability to follow instructions across diverse domains. Current research focuses on improving LLM performance on MCQA tasks by addressing limitations like format biases and developing more robust evaluation metrics, often employing techniques like parameter-efficient fine-tuning (e.g., LoRA) and attention mechanism analysis within transformer architectures. These advancements are significant because reliable MCQA benchmarks are essential for advancing LLM development and ensuring their responsible deployment in various applications, from education and healthcare to specialized fields like materials science and cybersecurity.

Papers

January 15, 2024

A Study on Large Language Models' Limitations in Multiple-Choice Question Answering
Aisha Khatun, Daniel G. Brown
Study Feature Fundamental Limitation Multiple Choice Open Source Model Choice Question Answering AI Task

January 13, 2024

A Novel Multi-Stage Prompting Approach for Language Agnostic MCQ Generation using GPT
Subhankar Maity, Aniket Deroy, Sudeshna Sarkar
NLP Task GPT Neo Multiple Choice Distractor Generation Multiple Choice Question Generation

December 23, 2023

Reverse Multi-Choice Dialogue Commonsense Inference with Graph-of-Thought
Li Zheng, Hao Fei, Fei Li, Bobo Li, Lizi Liao, Donghong Ji, Chong Teng
Multiple Choice Commonsense Question Answering Commonsense Augmented Dialogue

December 18, 2023

Multiple Hypothesis Dropout: Estimating the Parameters of Multi-Modal Output Distributions
David D. Nguyen, David Liebowitz, Surya Nepal, Salil S. Kanhere
Multi Modal Many Parameter Structured Output Multiple Choice Mixture Density Network

December 9, 2023

Steering Llama 2 via Contrastive Activation Addition
Nina Rimsky, Nick Gabrieli, Julian Schulz, Meg Tong, Evan Hubinger, Alexander Matt Turner
Language Model Contrastive Learning Multiple Choice Residual Stream Activation Space Whispering Llama

November 8, 2023

Assessing Distractors in Multiple-Choice Tests
Vatsal Raina, Adian Liusie, Mark Gales
Multiple Choice High Quality Distractors Multi Choice Machine Reading Comprehension

November 7, 2023

Evaluating Large Language Models in Ophthalmology
Jason Holmes, Shuyuan Ye, Yiwei Li, Shi-Nan Wu, Zhengliang Liu, Zihao Wu, Jinyu Hu, Huan Zhao, Xi Jiang, Wei Liu, Hong Wei, Jie Zou, Tianming Liu, Yi Shao
Medical LLM Multiple Choice Medical Student Different LLM

November 2, 2023

Resilient Multiple Choice Learning: A learned scoring scheme with application to audio scene analysis
Victor Letzelter, Mathieu Fontaine, Mickaël Chen, Patrick Pérez, Slim Essid, Gaël Richard
Application Proficiency Multi Modal Multiple Choice Conditional Distribution Audio Visual Scene Probabilistic Interpretation Scoring System

October 26, 2023

An Open Source Data Contamination Report for Large Language Models
Yucheng Li, Frank Guerin, Chenghua Lin
Multiple Choice Data Contamination Faithful Model Contaminated Data

October 18, 2023

October 10, 2023

LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression
Huiqiang Jiang, Qianhui Wu, Xufang Luo, Dongsheng Li, Chin-Yew Lin, Yuqing Yang, Lili Qiu
Large Language Model Shot Learning Multiple Choice Prompt Compression Long Context Scenario

September 7, 2023

Large Language Models Are Not Robust Multiple Choice Selectors
Chujie Zheng, Hao Zhou, Fandong Meng, Jie Zhou, Minlie Huang
Large Language Model Multiple Choice Selection Bias Token Bias

August 28, 2023

Spoken Language Intelligence of Large Language Models for Language Learning
Linkai Peng, Baorian Nuchged, Yingming Gao
Speech Processing Multiple Choice Conversational Context Conversational System Language Learning

August 19, 2023

FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for Large Language Models
Xin Guo, Haotian Xia, Zhaowei Liu, Hanyang Cao, Zhi Yang, Zhiqiang Liu, Sizhe Wang, Jinyi Niu, Chuqi Wang, Yanhui Wang, Xiaolong Liang, Xiaoming Huang, Bing Zhu, Zhongyu Wei, Yun Chen, Weining Shen, Liwen Zhang
Large Language Model Natural Language Processing Task Multiple Choice Financial Domain

May 24, 2023

Increasing Probability Mass on Answer Choices Does Not Always Improve Accuracy
Sarah Wiegreffe, Matthew Finlayson, Oyvind Tafjord, Peter Clark, Ashish Sabharwal
Language Model Multiple Choice Question Multiple Choice Discriminative Task Probability Mass

May 23, 2023

Make a Choice! Knowledge Base Question Answering with In-Context Learning
Chuanyuan Tan, Yuehe Chen, Wenbiao Shao, Wenliang Chen
Context Learning Knowledge Base Multiple Choice Value Laden Choice KBQA Model KBQA Datasets

May 8, 2023

DEnsity: Open-domain Dialogue Evaluation Metric using Density Estimation
ChaeHun Park, Seungil Chad Lee, Daniel Rim, Jaegul Choo
Contrastive Learning Density Estimation Multiple Choice Open Domain Dialogue Open Domain Dialogue System Particle Density

March 29, 2023

Evaluating GPT-3.5 and GPT-4 Models on Brazilian University Admission Exams
Desnes Nunes, Ricardo Primi, Ramon Pires, Roberto Lotufo, Rodrigo Nogueira
Language Model Multiple Choice

March 18, 2023

An Empirical Study of Pre-trained Language Models in Simple Knowledge Graph Question Answering
Nan Hu, Yike Wu, Guilin Qi, Dehai Min, Jiaoyan Chen, Jeff Z. Pan, Zafar Ali
Natural Language Processing Pre Trained Language Model Empirical Study NLP Community Multiple Choice Scale Pre Trained Language Model Knowledge Graph Question Answering