Safe Agent

Safe agent research focuses on designing artificial intelligence agents that reliably and ethically perform tasks in real-world environments, mitigating risks such as adversarial attacks, bias, and unintended consequences. Current research emphasizes developing robust safety architectures, including input-output filters, safety agents, and hierarchical systems, often employing reinforcement learning algorithms like actor-critic methods and particle filters to achieve stability and optimize performance while adhering to safety constraints. This field is crucial for responsible AI deployment across various sectors, from autonomous vehicles to human-AI collaboration, ensuring both efficacy and safety in increasingly complex applications.

Papers

September 1, 2022

A Technique to Create Weaker Abstract Board Game Agents via Reinforcement Learning
Peter Jamieson, Indrima Upadhyay
Reinforcement Learning Q Learning Barzilai Borwein Technique Artificial Intelligence Agent Safe Agent Board Game

May 24, 2022

VIRATrustData: A Trust-Annotated Corpus of Human-Chatbot Conversations About COVID-19 Vaccines
Roni Friedman, João Sedoc, Shai Gretz, Assaf Toledo, Rose Weeks, Naor Bar-Zeev, Yoav Katz, Noam Slonim
Chatbot Response Vaccine Related Human Chatbot Safe Agent Human Automation Trust

April 21, 2022

Path-Specific Objectives for Safer Agent Incentives
Sebastian Farquhar, Ryan Carey, Tom Everitt
Institutional Incentive Deceptive Diffusion Safe Agent Influence Diagram Perverse Incentive

January 8, 2022

Modeling Human-AI Team Decision Making
Wei Ye, Francesco Bullo, Noah Friedkin, Ambuj K Singh
AI Agent Human AI Team Safe Agent

January 5, 2022

Offsetting Unequal Competition through RL-assisted Incentive Schemes
Paramita Koley, Aurghya Maiti, Sourangshu Bhattacharya, Niloy Ganguly
Multi Agent Reinforcement Learning Safe Agent Multi Agent Particle Adaptive Incentive

Safe Agent

Papers

A Technique to Create Weaker Abstract Board Game Agents via Reinforcement Learning

VIRATrustData: A Trust-Annotated Corpus of Human-Chatbot Conversations About COVID-19 Vaccines

Path-Specific Objectives for Safer Agent Incentives

Modeling Human-AI Team Decision Making

Offsetting Unequal Competition through RL-assisted Incentive Schemes