Egocentric Video

Egocentric video, capturing the world from a first-person perspective, is revolutionizing computer vision by enabling the analysis of human activities and interactions in their natural context. Current research heavily focuses on developing robust multimodal models, often leveraging transformer architectures and large language models, to understand and generate information from egocentric video data, addressing challenges like motion estimation, action recognition, and affordance prediction. This field is significant for advancing artificial intelligence, particularly in embodied AI and human-computer interaction, with applications ranging from assistive technologies and virtual reality to robotics and understanding human behavior. The development of large-scale datasets and standardized evaluation metrics is also driving progress.

Papers

July 5, 2024

ZARRIO @ Ego4D Short Term Object Interaction Anticipation Challenge: Leveraging Affordances and Attention-based models for STA
Lorenzo Mur-Labadia, Ruben Martinez-Cantin, Josechu Guerrero-Campo, Giovanni Maria Farinella
Affordance Learning Egocentric Video Attention Based Model Short Term Object Interaction Anticipation

June 26, 2024

EgoVideo: Exploring Egocentric Foundation Model and Downstream Adaptation
Baoqi Pei, Guo Chen, Jilan Xu, Yuping He, Yicheng Liu, Kanghua Pan, Yifei Huang, Yali Wang, Tong Lu, Limin Wang, Yu Qiao
Egocentric Video Downstream Fine Tuning Egocentric Video Understanding EGO4D Challenge

June 22, 2024

HCQA @ Ego4D EgoSchema Challenge 2024
Haoyu Zhang, Yuquan Xie, Yisen Feng, Zaijing Li, Meng Liu, Liqiang Nie
Question Answering Egocentric Video Egocentric Video Understanding Comprehension Model EGO4D Challenge

June 19, 2024

AlanaVLM: A Multimodal Embodied AI Foundation Model for Egocentric Video Understanding
Alessandro Suglia, Claudio Greco, Katie Baker, Jose L. Part, Ioannis Papaioannou, Arash Eshghi, Ioannis Konstas, Oliver Lemon
Vision Language Model Egocentric Video Embodied AI Egocentric Vision Egocentric Video Understanding

June 14, 2024

June 13, 2024

June 12, 2024

June 3, 2024

May 30, 2024

May 7, 2024

Diff-IP2D: Diffusion-Based Hand-Object Interaction Prediction on Egocentric Videos
Junyi Ma, Jingyi Xu, Xieyuanli Chen, Hesheng Wang
Egocentric Video Hand Object Interaction Finger Motion

April 23, 2024

Combating Missing Modalities in Egocentric Videos at Test Time
Merey Ramazanova, Alejandro Pardo, Bernard Ghanem, Motasem Alfarra
Action Recognition Egocentric Video Multi Modality Different Modality Test Time Modality Specific Information

April 12, 2024

EventEgo3D: 3D Human Motion Capture from Egocentric Event Streams
Christen Millerdurai, Hiroyasu Akada, Jian Wang, Diogo Luvizon, Christian Theobalt, Vladislav Golyanik
Egocentric Video Motion Capture Monocular Event Camera

April 8, 2024

SoundingActions: Learning How Actions Sound from Narrated Egocentric Videos
Changan Chen, Kumar Ashutosh, Rohit Girdhar, David Harwath, Kristen Grauman
Egocentric Video Audio Visual Correspondence Modality Pair

Egocentric Video

Papers

ZARRIO @ Ego4D Short Term Object Interaction Anticipation Challenge: Leveraging Affordances and Attention-based models for STA

EgoVideo: Exploring Egocentric Foundation Model and Downstream Adaptation

HCQA @ Ego4D EgoSchema Challenge 2024

AlanaVLM: A Multimodal Embodied AI Foundation Model for Egocentric Video Understanding

The BabyView dataset: High-resolution egocentric videos of infants' and young children's everyday experiences

PARSE-Ego4D: Personal Action Recommendation Suggestions for Egocentric Videos

CARLOR @ Ego4D Step Grounding Challenge: Bayesian temporal-order priors for test time refinement

Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos

SViTT-Ego: A Sparse Video-Text Transformer for Egocentric Video

Gazing Into Missteps: Leveraging Eye-Gaze for Unsupervised Mistake Detection in Egocentric Videos of Skilled Human Activities

Identification of Conversation Partners from Egocentric Video

Differentiable Task Graph Learning: Procedural Activity Representation and Online Mistake Detection from Egocentric Videos

AFF-ttention! Affordances and Attention models for Short-Term Object Interaction Anticipation

Object Aware Egocentric Online Action Detection

EMAG: Ego-motion Aware and Generalizable 2D Hand Forecasting from Egocentric Videos

Multimodal Cross-Domain Few-Shot Learning for Egocentric Action Recognition

Diff-IP2D: Diffusion-Based Hand-Object Interaction Prediction on Egocentric Videos

Combating Missing Modalities in Egocentric Videos at Test Time

EventEgo3D: 3D Human Motion Capture from Egocentric Event Streams

SoundingActions: Learning How Actions Sound from Narrated Egocentric Videos