Visual Robotic Manipulation

Visual robotic manipulation focuses on enabling robots to interact with objects using visual information alone, aiming for robust and generalizable performance across diverse environments and tasks. Current research emphasizes improving the efficiency and generalization of learning algorithms, exploring model architectures like transformers, diffusion models, and autoencoders, often incorporating techniques such as self-supervised pretraining with depth or large-scale video data, and equivariant representations to handle 3D spatial relationships. These advancements are crucial for creating more adaptable and reliable robots capable of performing complex manipulation tasks in unstructured real-world settings, impacting fields ranging from manufacturing and logistics to healthcare and domestic assistance.

Papers

October 29, 2024

Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Dataset
Guangqi Jiang, Yifei Sun, Tao Huang, Huanyu Li, Yongyuan Liang, Huazhe Xu
Robot Learning Robot Programming Robotic Datasets Visual Robotic Manipulation

September 16, 2024

SplatSim: Zero-Shot Sim2Real Transfer of RGB Manipulation Policies Using Gaussian Splatting
Mohammad Nomaan Qureshi, Sparsh Garg, Francisco Yandun, David Held, George Kantor, Abhisesh Silwal
Synthetic Data Gaussian Splatting RGB Image Gaussian Splat Sim2Real Transfer Visual Robotic Manipulation

January 17, 2024

Visual Robotic Manipulation with Depth-Aware Pretraining
Wanying Wang, Jinming Li, Yichen Zhu, Zhiyuan Xu, Zhengping Che, Yaxin Peng, Chaomin Shen, Dong Liu, Feifei Feng, Jian Tang
Pre Trained Robotics Domain Manipulation Task Visual Representation Learning Manipulation Policy Visual Robotic Manipulation 3D Object Manipulation

December 20, 2023

Unleashing Large-Scale Video Generative Pre-training for Visual Robot Manipulation
Hongtao Wu, Ya Jing, Chilam Cheang, Guangzeng Chen, Jiafeng Xu, Xinghang Li, Minghuan Liu, Hang Li, Tao Kong
Multi Task Language Conditioned Generative Pre Training Video Generative Unified Transformer Visual Robotic Manipulation

September 6, 2023

Diffusion-EDFs: Bi-equivariant Denoising Generative Modeling on SE(3) for Visual Robotic Manipulation
Hyunwoo Ryu, Jiwoo Kim, Hyunseok An, Junwoo Chang, Joohwan Seo, Taehan Kim, Yubin Kim, Chaewon Hwang, Jongeun Choi, Roberto Horowitz
Generative Modeling Equivariant Map Equivariant Diffusion Decay Function Visual Robotic Manipulation

July 7, 2023

Decomposing the Generalization Gap in Imitation Learning for Visual Robotic Manipulation
Annie Xie, Lisa Lee, Ted Xiao, Chelsea Finn
Strong Generalization Imitation Learning Generalization Gap Language Conditioned Generalization Problem Visual Robotic Manipulation

February 5, 2023

Multi-View Masked World Models for Visual Robotic Manipulation
Younggyo Seo, Junsu Kim, Stephen James, Kimin Lee, Jinwoo Shin, Pieter Abbeel
Multi View World Model Visual Robotic Manipulation

July 5, 2022

Randomized-to-Canonical Model Predictive Control for Real-world Visual Robotic Manipulation
Tomoya Yamanokuchi, Yuhwan Kwon, Yoshihisa Tsurumine, Eiji Uchibe, Jun Morimoto, Takamitsu Matsubara
Kalman Filter Nonlinear Model Predictive Control Visual Robotic Manipulation

June 28, 2022

Masked World Models for Visual Control
Younggyo Seo, Danijar Hafner, Hao Liu, Fangchen Liu, Stephen James, Kimin Lee, Pieter Abbeel
Vision Transformer Model Based Reinforcement Learning Vision Task World Model Visual Control Visual Robotic Manipulation Visual Model Based

June 16, 2022

Equivariant Descriptor Fields: SE(3)-Equivariant Energy-Based Models for End-to-End Visual Robotic Manipulation Learning
Hyunwoo Ryu, Hong-in Lee, Jeong-Hoon Lee, Jongeun Choi
Full Model Robotic Manipulation Se Equivariant Roto Translation Visual Robotic Manipulation Equivariant Descriptor

April 26, 2022

Coarse-to-fine Q-attention with Tree Expansion
Stephen James, Pieter Abbeel
Graph Expansion Visual Robotic Manipulation Q Attention

Visual Robotic Manipulation

Papers

Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Dataset

SplatSim: Zero-Shot Sim2Real Transfer of RGB Manipulation Policies Using Gaussian Splatting

Visual Robotic Manipulation with Depth-Aware Pretraining

Unleashing Large-Scale Video Generative Pre-training for Visual Robot Manipulation

Diffusion-EDFs: Bi-equivariant Denoising Generative Modeling on SE(3) for Visual Robotic Manipulation

Decomposing the Generalization Gap in Imitation Learning for Visual Robotic Manipulation

Multi-View Masked World Models for Visual Robotic Manipulation

Randomized-to-Canonical Model Predictive Control for Real-world Visual Robotic Manipulation

Masked World Models for Visual Control

Equivariant Descriptor Fields: SE(3)-Equivariant Energy-Based Models for End-to-End Visual Robotic Manipulation Learning

Coarse-to-fine Q-attention with Tree Expansion