Multimodal Intent

Multimodal intent research focuses on understanding and predicting human actions and intentions by integrating information from multiple sources like vision, language, and physical interaction. Current research emphasizes developing models, often incorporating convolutional neural networks (CNNs) and transformers, to process this multimodal data and predict future actions or behaviors, particularly in human-robot interaction and activity understanding. This work is significant for improving human-computer interaction, enabling more natural and intuitive interactions with robots and AI systems, and advancing our understanding of human behavior in various contexts, such as assistive robotics and autonomous driving.

Papers

March 27, 2024

PhysicsAssistant: An LLM-Powered Interactive Learning Robot for Physics Lab Investigations
Ehsan Latif, Ramviyas Parasuraman, Xiaoming Zhai
Robotic System Physic Experiment Multi Modal Robot Robot Assistant Physic Education Multimodal Intent

December 20, 2022

Evaluating Multimodal Interaction of Robots Assisting Older Adults
Afagh Mehri Shervedani, Ki-Hwan Oh, Bahareh Abbasi, Natawut Monaikul, Zhanibek Rysbek, Barbara Di Eugenio, Milos Zefran
Non Humanoid Robot Assistive Robot Older Adult Multimodal Interaction Multimodal Intent

November 24, 2022

On the Linguistic and Computational Requirements for Creating Face-to-Face Multimodal Human-Machine Interaction
João Ranhel, Cacilda Vilela de Lima
Human Avatar Multimodal Communication Face to Face Computational Demand Multimodal Intent

October 11, 2022

ViLPAct: A Benchmark for Compositional Generalization on Multimodal Human Activities
Terry Yue Zhuo, Yaqing Liao, Yuecheng Lei, Lizhen Qu, Gerard de Melo, Xiaojun Chang, Yazhou Ren, Zenglin Xu
New Benchmark Task Planning AI Agent Compositional Generalization Vision Language Benchmark Multimodal Intent

April 17, 2022

ParkPredict+: Multimodal Intent and Motion Prediction for Vehicles in Parking Lots with CNN and Transformer
Xu Shen, Matthew Lacayo, Nidhir Guggilla, Francesco Borrelli
Transformer Based Trajectory Prediction Motion Prediction Traffic Scenario Future Trajectory Human Driven Vehicle Parking Lot Parking Availability Prediction Multimodal Intent

April 16, 2022

Interactiveness Field in Human-Object Interactions
Xinpeng Liu, Yong-Lu Li, Xiaoqian Wu, Yu-Wing Tai, Cewu Lu, Chi-Keung Tang
Human Object Interaction Response Pair Multimodal Intent

Multimodal Intent

Papers

PhysicsAssistant: An LLM-Powered Interactive Learning Robot for Physics Lab Investigations

Evaluating Multimodal Interaction of Robots Assisting Older Adults

On the Linguistic and Computational Requirements for Creating Face-to-Face Multimodal Human-Machine Interaction

ViLPAct: A Benchmark for Compositional Generalization on Multimodal Human Activities

ParkPredict+: Multimodal Intent and Motion Prediction for Vehicles in Parking Lots with CNN and Transformer

Interactiveness Field in Human-Object Interactions