Vision Language Action

Vision-Language-Action (VLA) models integrate computer vision, natural language processing, and robotics to enable robots to understand and execute complex tasks instructed via natural language commands and visual input. Current research focuses on improving the robustness and generalization of these models, often employing transformer-based architectures and techniques like chain-of-thought prompting to enhance reasoning capabilities, as well as developing efficient training methods and evaluation platforms. This field is significant for advancing embodied AI, with potential applications ranging from surgical assistance and household robotics to autonomous driving and industrial automation.

30papers

Papers - Page 6

October 17, 2024

Vision-Language-Action Model and Diffusion Policy Switching Enables Dexterous Control of an Anthropomorphic Hand
Cheng Pan, Kai Junge, Josie Hughes
Autonomous Manipulation Robotic Hand Vision Language Action Multi Object Diffusion Policy Aligned Action Prompt Anthropomorphic Hand

October 15, 2024

Latent Action Pretraining from Videos
Seonghyeon Ye, Joel Jang, Byeongguk Jeon, Sejune Joo, Jianwei Yang, Baolin Peng, Ajay Mandlekar, Reuben Tan, Yu-Wei Chao, Bill Yuchen Lin+6
Latent Action Vision Language Action Action Label Gameplay Video

October 10, 2024

Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation
Qingwen Bu, Hongyang Li, Li Chen, Jisong Cai, Jia Zeng, Heming Cui, Maoqing Yao, Yu Qiao
Robotic Manipulation Cross Embodiment Action Space Vision Language Action Transformer Based Dual System Synergistic Information

October 8, 2024

GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation
Chi-Lam Cheang, Guangzeng Chen, Ya Jing, Tao Kong, Hang Li, Yifeng Li, Yuxiao Liu, Hongtao Wu, Jiafeng Xu, Yichu Yang, Hanbo Zhang, Minzhao Zhu
Generalizable Manipulation Generalist Robot Robotic Task Scale Knowledge Action Prediction Representation Learning Robot Manipulation Vision Language Action

October 7, 2024

LADEV: A Language-Driven Testing and Evaluation Platform for Vision-Language-Action Models in Robotic Manipulation
Zhijie Wang, Zhehua Zhou, Jiayang Song, Yuheng Huang, Zhan Shu, Lei Ma
Vision Language Model Vision Language Action Robotic Manipulation Code Language Model Evaluation Platform Manipulation Task Natural Language Input

October 3, 2024

Guiding Long-Horizon Task and Motion Planning with Vision Language Models
Zhutian Yang, Caelan Garrett, Dieter Fox, Tomás Lozano-Pérez, Leslie Pack Kaelbling
Motion Planning Motion Planner Vision Language Action Vision Language Model Long Horizon Task Robotic Task

October 2, 2024

Run-time Observation Interventions Make Vision-Language-Action Models More Visually Robust
Asher J. Hancock, Allen Z. Ren, Anirudha Majumdar
Language Guided Manipulation High Quality Distractors Vision Language Action Robust Version Task Irrelevant Robot Demonstration

September 29, 2024

RoboNurse-VLA: Robotic Scrub Nurse System based on Vision-Language-Action Model
Shunlei Li, Jin Wang, Rui Dai, Wanyu Ma, Wing Yin Ng, Yingbai Hu, Zheng Li
Vision Language Action Autonomous Robotic Surgery Medical Robot

September 23, 2024

ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models
Sombit Dey, Jan-Nico Zaech, Nikolay Nikolov, Luc Van Gool, Danda Pani Paudel
Vision Language Action Catastrophic Forgetting Visual Generalization Visual Domain Foundation Model

September 20, 2024

Manipulation Facing Threats: Evaluating Physical Vulnerabilities in End-to-End Vision Language Action Models
Hao Cheng, Erjia Xiao, Chengyuan Yu, Zhao Yao, Jiahang Cao, Qiang Zhang, Jiaxu Wang, Mengshu Sun, Kaidi Xu, Jindong Gu, Renjing Xu
Vision Language Action Threat Word Strategic Manipulation Modal Attack Manipulation Task

September 19, 2024

September 12, 2024

HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers
Jianke Zhang, Yanjiang Guo, Xiaoyu Chen, Yen-Jen Wang, Yucheng Hu, Chengming Shi, Jianyu Chen
Vision Language Action Hierarchical Transformer Robot Control Vision Language Model

September 6, 2024

Automating Robot Failure Recovery Using Vision-Language Models With Optimized Prompts
Hongyi Chen, Yunchao Yao, Ruixuan Liu, Changliu Liu, Jeffrey Ichnowski
Complex Prompt Vision Language Action Vision Language Model Robust Recovery Robot Autonomy

September 5, 2024

OccLLaMA: An Occupancy-Language-Action Generative World Model for Autonomous Driving
Julong Wei, Shanshuai Yuan, Pengfei Li, Qingda Hu, Zhongxue Gan, Wenchao Ding
Generative World Model Multi Modal Large Language Model Autonomous Driving 3D Semantic Occupancy Vision Language Action

August 19, 2024

CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving
Hidehisa Arai, Keita Miwa, Kento Sasaki, Yu Yamaguchi, Kohei Watanabe, Shunsuke Aoki, Issei Yamamoto
Autonomous Driving Vision Language Action Covid 19

August 2, 2024

Actra: Optimized Transformer Architecture for Vision-Language-Action Models in Robot Learning
Yueen Ma, Dafeng Chi, Shiguang Wu, Yuecheng Liu, Yuzheng Zhuang, Jianye Hao, Irwin King
Vision Language Action Robot Learning Action Query Transformer Architecture Imitation Learning

July 11, 2024

Robotic Control via Embodied Chain-of-Thought Reasoning
Michał Zawalski, William Chen, Karl Pertsch, Oier Mees, Chelsea Finn, Sergey Levine
Robot Policy Vision Language Action Task Generalization Robot Control Embodied Vision

July 10, 2024

Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs
Hao-Tien Lewis Chiang, Zhuo Xu, Zipeng Fu, Mithun George Jacob, Tingnan Zhang, Tsang-Wei Edward Lee, Wenhao Yu, Connor Schenck+14
Topological Graph Vision Language Action Multimodal Instruction

June 28, 2024

HumanVLA: Towards Vision-Language Directed Object Rearrangement by Physical Humanoid
Xinyu Xu, Yizheng Zhang, Yong-Lu Li, Lei Han, Cewu Lu
Humanoid Character Human Scene Interaction Object Rearrangement Behavior Cloning Vision Language Action

Vision Language Action

Papers - Page 6

Vision-Language-Action Model and Diffusion Policy Switching Enables Dexterous Control of an Anthropomorphic Hand

Latent Action Pretraining from Videos

Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation

GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation

LADEV: A Language-Driven Testing and Evaluation Platform for Vision-Language-Action Models in Robotic Manipulation

Guiding Long-Horizon Task and Motion Planning with Vision Language Models

Run-time Observation Interventions Make Vision-Language-Action Models More Visually Robust

RoboNurse-VLA: Robotic Scrub Nurse System based on Vision-Language-Action Model

ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models

Manipulation Facing Threats: Evaluating Physical Vulnerabilities in End-to-End Vision Language Action Models

VLATest: Testing and Evaluating Vision-Language-Action Models for Robotic Manipulation

TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation

HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers

Automating Robot Failure Recovery Using Vision-Language Models With Optimized Prompts

OccLLaMA: An Occupancy-Language-Action Generative World Model for Autonomous Driving

CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving

Actra: Optimized Transformer Architecture for Vision-Language-Action Models in Robot Learning

Robotic Control via Embodied Chain-of-Thought Reasoning

Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs

HumanVLA: Towards Vision-Language Directed Object Rearrangement by Physical Humanoid