Risky Prompt Rejection

Risky prompt rejection in machine learning focuses on enabling models to reliably abstain from answering questions or making predictions when faced with uncertainty, ambiguity, or potentially harmful inputs. Current research explores various approaches, including modifying loss functions, leveraging density ratios, and employing reinforcement learning to train models to identify and reject such prompts, often incorporating techniques like counterfactual analysis and conditional evidence decoupling. This area is crucial for improving the safety and reliability of AI systems, particularly large language models, and for mitigating biases and vulnerabilities to adversarial attacks in diverse applications.

Papers

September 13, 2022

Learning to Solve Multiple-TSP with Time Window and Rejections via Deep Reinforcement Learning
Rongkai Zhang, Cong Zhang, Zhiguang Cao, Wen Song, Puay Siew Tan, Jie Zhang, Bihan Wen, Justin Dauwels
LeArning Abstract Deep Reinforcement Learning Salesman Problem Traveling Salesman Problem Risky Prompt Rejection Time Window

August 12, 2022

A Case for Rejection in Low Resource ML Deployment
Jerome White, Pulkit Madaan, Nikhil Shenoy, Apoorv Agnihotri, Makkunda Sharma, Jigar Doshi
Machine Learning Artificial Intelligence Data Set Case Relevance Baseline Result Risky Prompt Rejection Robust Controllable Set

July 5, 2022

"Even if ..." -- Diverse Semifactual Explanations of Reject
André Artelt, Barbara Hammer
Explainable AI Explanation Method Risky Prompt Rejection Reject Option Example Based Semifactual Explanation

May 16, 2022

Model Agnostic Local Explanations of Reject
André Artelt, Roel Visser, Barbara Hammer
Counterfactual Explanation Interpretable Model Local Interpretable Model Agnostic Explanation accuratE Prediction Risky Prompt Rejection Reject Option

May 1, 2022

Budgeted Classification with Rejection: An Evolutionary Method with Multiple Objectives
Nolan H. Hamilton, Errin Fulp
Loss Function Supervised Learning Genetic Algorithm Multiple Objective Risky Prompt Rejection Evolutionary Method Reject Option Sequential Classifier

February 26, 2022

A Deep Bayesian Neural Network for Cardiac Arrhythmia Classification with Rejection from ECG Recordings
Wenrui Zhang, Xinxin Di, Guodong Wei, Shijia Geng, Zhaoji Fu, Shenda Hong
Bayesian Neural Network Model Uncertainty Data Uncertainty Risky Prompt Rejection Electrocardiogram Representation Electrocardiogram Recording

February 18, 2022

Identifying the Adoption or Rejection of Misinformation Targeting COVID-19 Vaccines in Twitter Discourse
Maxwell Weinzierl, Sanda Harabagiu
Misinformation Claim Vaccine Related Risky Prompt Rejection Misinformation Campaign COVID 19 Vaccine Fake News Diffusion Adoption Strategy Twitter Discourse

January 10, 2022

Cross-Modal ASR Post-Processing System for Error Correction and Utterance Rejection
Jing Du, Shiliang Pu, Qinbo Dong, Chao Jin, Xin Qi, Dian Gu, Ru Wu, Hongwei Zhou
Speech Recognition Error Correction Risky Prompt Rejection Speech Recognizers

December 22, 2021

Detect & Reject for Transferability of Black-box Adversarial Attacks Against Network Intrusion Detection Systems
Islam Debicha, Thibault Debatty, Jean-Michel Dricot, Wim Mees, Tayeb Kenaza
Adversarial Attack Task Transferability Detection Model Network Intrusion Detection Adversarial Image Risky Prompt Rejection Black Box Adversarial Attack Learning Based Intrusion Detection Adversarial Traffic

November 11, 2021

The Science of Rejection: A Research Area for Human Computation
Burcu Sayin, Jie Yang, Andrea Passerini, Fabio Casati
Machine Learning Science Journalism Model Prediction Manual Effort Risky Prompt Rejection Research Topic

Risky Prompt Rejection

Papers

Learning to Solve Multiple-TSP with Time Window and Rejections via Deep Reinforcement Learning

A Case for Rejection in Low Resource ML Deployment

"Even if ..." -- Diverse Semifactual Explanations of Reject

Model Agnostic Local Explanations of Reject

Budgeted Classification with Rejection: An Evolutionary Method with Multiple Objectives

A Deep Bayesian Neural Network for Cardiac Arrhythmia Classification with Rejection from ECG Recordings

Identifying the Adoption or Rejection of Misinformation Targeting COVID-19 Vaccines in Twitter Discourse

Cross-Modal ASR Post-Processing System for Error Correction and Utterance Rejection

Detect & Reject for Transferability of Black-box Adversarial Attacks Against Network Intrusion Detection Systems

The Science of Rejection: A Research Area for Human Computation