GPT 4v

GPT-4V, a large multimodal model, is being actively researched for its ability to perform complex tasks involving both visual and textual information. Current research focuses on improving its robustness against adversarial attacks, enhancing its decision-making capabilities in uncertain environments through techniques like reinforcement learning and uncertainty estimation, and applying it to real-world problems such as smartphone GUI navigation and drug discovery. These advancements demonstrate GPT-4V's potential to significantly impact various fields, from automated systems and human-computer interaction to scientific discovery, by enabling more sophisticated and reliable AI agents.

Papers

July 18, 2024

Scalable Exploration via Ensemble++
Yingru Li, Jiawei Xu, Baoxiang Wang, Zhi-Quan Luo
Foundation Model Uncertainty Aware Dueling Bandit Efficient Uncertainty Estimation Online Decision GPT 4v

June 18, 2024

Dissecting Adversarial Robustness of Multimodal LM Agents
Chen Henry Wu, Rishi Shah, Jing Yu Koh, Ruslan Salakhutdinov, Daniel Fried, Aditi Raghunathan
Adversarial Attack Multimodal Agent GPT 4v

May 24, 2024

Belief-State Query Policies for Planning With Preferences Under Partial Observability
Daniel Bramblett, Siddharth Srivastava
Markov Decision Process Preference Feedback Belief State Partial Observability GPT 4v

December 21, 2023

De novo Drug Design using Reinforcement Learning with Multiple GPT Agents
Xiuyuan Hu, Guoqing Liu, Yang Zhao, Hao Zhang
Reinforcement Learning Molecular Generation Drug Design De Novo Drug Design GPT 4v

November 13, 2023

GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation
An Yan, Zhengyuan Yang, Wanrong Zhu, Kevin Lin, Linjie Li, Jianfeng Wang, Jianwei Yang, Yiwu Zhong, Julian McAuley, Jianfeng Gao, Zicheng Liu, Lijuan Wang
Large Multimodal Model GPT 4 Action Localization Navigation Benchmark GPT 4v

GPT 4v

Papers

Scalable Exploration via Ensemble++

Dissecting Adversarial Robustness of Multimodal LM Agents

Belief-State Query Policies for Planning With Preferences Under Partial Observability

De novo Drug Design using Reinforcement Learning with Multiple GPT Agents

GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation