Question Answer Pair

Question-answer pairs (QAPs) are fundamental to evaluating and improving various AI models, particularly large language models (LLMs), across diverse domains like commonsense reasoning, finance, and scientific literature. Current research focuses on developing robust QAP datasets reflecting real-world complexities, including multimodal data (images, charts) and nuanced language, and on employing techniques like retrieval-augmented generation (RAG) and chain-of-thought prompting to enhance model performance and interpretability. The creation and utilization of high-quality QAPs are crucial for benchmarking progress, identifying model limitations, and ultimately driving the development of more accurate, reliable, and explainable AI systems with broader applications.

Papers

September 24, 2024

RAGProbe: An Automated Approach for Evaluating RAG Applications
Shangeetha Sivasothy, Scott Barnett, Stefanus Kurniawan, Zafaryab Rasool, Rajesh Vasa
Retrieval Augmented Generation Question Answer Pair QA Datasets Automated Approach RAG Based

September 19, 2024

Evaluating Image Hallucination in Text-to-Image Generation with Question-Answering
Youngsun Lim, Hojun Choi, Hyunjung Shim
Text to Image Generation Text to Image Model Question Answer Pair Text to Image Generation Model Visual Hallucination Hallucination Evaluation

September 15, 2024

A Benchmark Dataset with Larger Context for Non-Factoid Question Answering over Islamic Text
Faiza Qamar, Seemab Latif, Rabia Latif
Benchmark Dataset Question Answer Pair Arabic Dialect Contextual Understanding Automatic Evaluation Metric User Query

August 30, 2024

"Is This It?": Towards Ecologically Valid Benchmarks for Situated Collaboration
Dan Bohus, Sean Andrist, Yuwei Bao, Eric Horvitz, Ann Paradiso
Large Language Model Large Multimodal Model Question Answer Pair Situated Reasoning

August 28, 2024

VLM4Bio: A Benchmark Dataset to Evaluate Pretrained Vision-Language Models for Trait Discovery from Biological Images
M. Maruf, Arka Daw, Kazi Sajeed Mehrab, Harish Babu Manogaran, Abhilash Neog, Medha Sawhney, Mridul Khurana, James P. Balhoff, Yasin Bakis, Bahadir Altintas, Matthew J. Thompson, Elizabeth G. Campolongo, Josef C. Uyeda, Hilmar Lapp, Henry L. Bart, Paula M. Mabee, Yu Su, Wei-Lun Chao, Charles Stewart, Tanya Berger-Wolf, Wasila Dahdul, Anuj Karpatne
Vision Language Model Large Vision Language Model Benchmark Dataset Novel Dataset Question Answer Pair

August 16, 2024

RealMedQA: A pilot biomedical question answering dataset containing realistic clinical questions
Gregory Kell, Angus Roberts, Serge Umansky, Yuti Khare, Najma Ahmed, Nikhil Patel, Chloe Simela, Jack Coumbe, Julian Rozario, Ryan-Rhys Griffiths, Iain J. Marshall
Data Set Question Answer Pair Mercedes Benz Drive Pilot Biomedical Question QA Model

August 8, 2024

August 2, 2024

RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework
Kunlun Zhu, Yifan Luo, Dingling Xu, Ruobing Wang, Shi Yu, Shuo Wang, Yukun Yan, Zhenghao Liu, Xu Han, Zhiyuan Liu, Maosong Sun
Retrieval Augmented Generation Question Answer Pair Evaluation Datasets

July 17, 2024

Establishing Knowledge Preference in Language Models
Sizhe Zhou, Sha Li, Yu Meng, Yizhu Jiao, Heng Ji, Jiawei Han
Language Model Question Answer Pair Contextual Knowledge

July 12, 2024

Bridging the Gap Between Information Seeking and Product Search Systems: Q&A Recommendation for E-commerce
Saar Kuzi, Shervin Malmasi
Question Answering E Commerce Question Answer Pair Information Seeking E Commerce Search

July 8, 2024

WSI-VQA: Interpreting Whole Slide Images by Generative Visual Question Answering
Pingyi Chen, Chenglu Zhu, Sunyi Zheng, Honglin Li, Lin Yang
Whole Slide Image Question Answer Pair Machine Translated Whole Slide Imaging

June 26, 2024

Explicit Diversity Conditions for Effective Question Answer Generation with Large Language Models
Vikas Yadav, Hyuk Joon Kwon, Vijay Srinivasan, Hongxia Jin
Question Generation Question Answer Pair Question Answer Generation Diversity Optimization

June 25, 2024

LumberChunker: Long-Form Narrative Document Segmentation
André V. Duarte, João Marques, Miguel Graça, Miguel Freire, Lei Li, Arlindo L. Oliveira
NLP Task Dense Retrieval Question Answer Pair Retrieval Performance

June 12, 2024

cPAPERS: A Dataset of Situated and Multimodal Interactive Conversations in Scientific Papers
Anirudh Sundar, Jin Xu, William Gay, Christopher Richardson, Larry Heck
Data Set Question Answer Pair Conversational Context Multimodal Dialogue Scientific Paper

June 7, 2024

June 6, 2024

FairytaleQA Translated: Enabling Educational Question and Answer Generation in Less-Resourced Languages
Bernardo Leite, Tomás Freitas Osório, Henrique Lopes Cardoso
Question Answering Question Generation Question Answer Pair Answer Generation Low Resourced Language FairytaleQA Dataset

May 30, 2024

TAIA: Large Language Models are Out-of-Distribution Data Learners
Shuyang Jiang, Yusheng Liao, Ya Zhang, Yanfeng Wang, Yu Wang
Fine Tuning Instruction Tuning Question Answer Pair Fine Tuned Model Learning Out of Distribution Data

May 21, 2024

The Role of Emotions in Informational Support Question-Response Pairs in Online Health Communities: A Multimodal Deep Learning Approach
Mohsen Jozani, Jason A. Williams, Ahmed Aleroud, Sarbottam Bhagat
Integral Role Experienced Emotion Question Answer Pair Multimodal Deep Learning Information Seeking Social Cognition Online Health

Question Answer Pair

Papers

RAGProbe: An Automated Approach for Evaluating RAG Applications

Evaluating Image Hallucination in Text-to-Image Generation with Question-Answering

A Benchmark Dataset with Larger Context for Non-Factoid Question Answering over Islamic Text

"Is This It?": Towards Ecologically Valid Benchmarks for Situated Collaboration

VLM4Bio: A Benchmark Dataset to Evaluate Pretrained Vision-Language Models for Trait Discovery from Biological Images

RealMedQA: A pilot biomedical question answering dataset containing realistic clinical questions

Compromesso! Italian Many-Shot Jailbreaks Undermine the Safety of Large Language Models

Open-domain Implicit Format Control for Large Language Model Generation

RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework

Establishing Knowledge Preference in Language Models

Bridging the Gap Between Information Seeking and Product Search Systems: Q&A Recommendation for E-commerce

WSI-VQA: Interpreting Whole Slide Images by Generative Visual Question Answering

Explicit Diversity Conditions for Effective Question Answer Generation with Large Language Models

LumberChunker: Long-Form Narrative Document Segmentation

cPAPERS: A Dataset of Situated and Multimodal Interactive Conversations in Scientific Papers

ComplexTempQA: A Large-Scale Dataset for Complex Temporal Question Answering

CRAG -- Comprehensive RAG Benchmark

FairytaleQA Translated: Enabling Educational Question and Answer Generation in Less-Resourced Languages

TAIA: Large Language Models are Out-of-Distribution Data Learners

The Role of Emotions in Informational Support Question-Response Pairs in Online Health Communities: A Multimodal Deep Learning Approach