Touch Language Vision

Research on "Touch-Language-Vision" focuses on integrating tactile, visual, and linguistic information to create more comprehensive multimodal representations, particularly for robotics and AI. Current efforts center on developing large-scale datasets pairing tactile sensor readings with corresponding images and natural language descriptions, and training models that learn to align these modalities effectively. These advancements aim to improve robotic perception and interaction capabilities, enabling more nuanced understanding of the physical world through the combined use of touch, sight, and language.

Papers

June 6, 2024

Touch100k: A Large-Scale Touch-Language-Vision Dataset for Touch-Centric Multimodal Representation
Ning Cheng, Changhao Guan, Jing Gao, Weihao Wang, You Li, Fandong Meng, Jie Zhou, Bin Fang, Jinan Xu, Wenjuan Han
Multimodal Representation Human Touch Unified Multimodal Touch Language Vision

March 14, 2024

Towards Comprehensive Multimodal Perception: Introducing the Touch-Language-Vision Dataset
Ning Cheng, You Li, Jing Gao, Bin Fang, Jinan Xu, Wenjuan Han
Multimodal Perception Tactile Modality Multimodal Analysis Touch Language Vision

February 20, 2024

A Touch, Vision, and Language Dataset for Multimodal Alignment
Letian Fu, Gaurav Datta, Huang Huang, William Chung-Ho Panitch, Jaimyn Drake, Joseph Ortiz, Mustafa Mukadam, Mike Lambeta, Roberto Calandra, Ken Goldberg
Vision Language Model Vision Paper Human Touch Multimodal Alignment Language Dataset Visuo Tactile Touch Language Vision

Touch Language Vision

Papers

Touch100k: A Large-Scale Touch-Language-Vision Dataset for Touch-Centric Multimodal Representation

Towards Comprehensive Multimodal Perception: Introducing the Touch-Language-Vision Dataset

A Touch, Vision, and Language Dataset for Multimodal Alignment