Language Guided Robotic Manipulation

Language-guided robotic manipulation aims to enable robots to understand and execute complex manipulation tasks based on natural language instructions, bridging the gap between human communication and robotic action. Current research heavily focuses on developing robust vision-language-action (VLA) models, often incorporating large language models (LLMs) and 3D scene understanding (e.g., via point clouds) to improve generalization and handle diverse scenarios. These efforts are evaluated using newly developed benchmarks that assess performance across various tasks and environmental conditions, revealing limitations in robustness and highlighting the need for improved generalization capabilities. This field is crucial for advancing human-robot collaboration and creating more adaptable and versatile robots for various applications.

10papers

Papers

October 21, 2024

MSGField: A Unified Scene Representation Integrating Motion, Semantics, and Geometry for Robotic Manipulation
Yu Sheng, Runfeng Lin, Lidian Wang, Quecheng Qiu, YanYong Zhang, Yu Zhang, Bei Hua, Jianmin Ji
High Quality Reconstruction Language Guided Manipulation Robotic Manipulation Geometric Analysis Motion Field Semantics Surfaced Language Guided Robotic Manipulation

October 2, 2024

Towards Generalizable Vision-Language Robotic Manipulation: A Benchmark and LLM-guided 3D Policy
Ricardo Garcia, Shizhe Chen, Cordelia Schmid
Language Guided Robotic Manipulation Action Primitive Action Prediction 3D Action Long Horizon Task New Benchmark

September 19, 2024

VLATest: Testing and Evaluating Vision-Language-Action Models for Robotic Manipulation
Zhijie Wang, Zhehua Zhou, Jiayang Song, Yuheng Huang, Zhan Shu, Lei Ma
Robotic Manipulation Vision Language Action Empirical Study Language Guided Robotic Manipulation Level Test Manipulation Task

July 19, 2024

Words2Contact: Identifying Support Contacts from Verbal Instructions Using Foundation Models
Dionis Totsila, Quentin Rouxel, Jean-Baptiste Mouret, Serena Ivaldi
Contact Prediction Language Guided Robotic Manipulation Foundation Model Vision Language Model Customer Service Human Instruction

June 14, 2024

Contrastive Imitation Learning for Language-guided Multi-Task Robotic Manipulation
Teli Ma, Jiaming Zhou, Zifan Wang, Ronghe Qiu, Junwei Liang
Based Imitation Real World Manipulation Task Contrastive Imitation Language Guided Robotic Manipulation Multi Task

September 27, 2023

PolarNet: 3D Point Clouds for Language-Guided Robotic Manipulation
Shizhe Chen, Ricardo Garcia, Cordelia Schmid, Ivan Laptev
Language Guided Robotic Manipulation Point Cloud Input Point Cloud Point Cloud Representation Language Guided Manipulation 3D Point Cloud

July 12, 2023

GVCCI: Lifelong Learning of Visual Grounding for Language-Guided Robotic Manipulation
Junghyun Kim, Gi-Cheon Kang, Jaein Kim, Suyeon Shin, Byoung-Tak Zhang
Visual Grounding Language Guided Robotic Manipulation Lifelong Learning Graph Based Robotic Instruction Decomposer

June 20, 2023

Surfer: Progressive Reasoning with World Models for Robotic Manipulation
Pengzhen Ren, Kaidong Zhang, Hetao Zheng, Zixuan Li, Yuhang Wen, Fengda Zhu, Mas Ma, Xiaodan Liang
Progressive Alignment World Model Robotic Manipulation Robot Manipulation Language Guided Robotic Manipulation

June 19, 2023

LARG, Language-based Automatic Reward and Goal Generation
Julien Perez, Denys Proux, Claude Roux, Michael Niemaz
Goal Generation Robot Learning Goal Conditioned Multi Task Reinforcement Learning Language Guided Robotic Manipulation

November 12, 2022

Learning Neuro-symbolic Programs for Language Guided Robot Manipulation
Namasivayam Kalithasan, Himanshu Singh, Vishal Bindal, Arnav Tuli, Vishwajeet Agrawal, Rahul Jain, Parag Singla, Rohan Paul
Language Guided Robotic Manipulation Complex Reasoning Neuro Symbolic Goal Space Action Representation Object Centric Representation

June 17, 2022

VLMbench: A Compositional Benchmark for Vision-and-Language Manipulation
Kaizhi Zheng, Xiaotong Chen, Odest Chadwicke Jenkins, Xin Eric Wang
Robot Demonstration Manipulation Planning Compositionality Benchmark Language Guided Robotic Manipulation Vision Language Benchmark Manipulation Task Vision Language Task

Language Guided Robotic Manipulation

Papers

MSGField: A Unified Scene Representation Integrating Motion, Semantics, and Geometry for Robotic Manipulation

Towards Generalizable Vision-Language Robotic Manipulation: A Benchmark and LLM-guided 3D Policy

VLATest: Testing and Evaluating Vision-Language-Action Models for Robotic Manipulation

Words2Contact: Identifying Support Contacts from Verbal Instructions Using Foundation Models

Contrastive Imitation Learning for Language-guided Multi-Task Robotic Manipulation

PolarNet: 3D Point Clouds for Language-Guided Robotic Manipulation

GVCCI: Lifelong Learning of Visual Grounding for Language-Guided Robotic Manipulation

Surfer: Progressive Reasoning with World Models for Robotic Manipulation

LARG, Language-based Automatic Reward and Goal Generation

Learning Neuro-symbolic Programs for Language Guided Robot Manipulation

VLMbench: A Compositional Benchmark for Vision-and-Language Manipulation