Egocentric Video

Egocentric video, capturing the world from a first-person perspective, is revolutionizing computer vision by enabling the analysis of human activities and interactions in their natural context. Current research heavily focuses on developing robust multimodal models, often leveraging transformer architectures and large language models, to understand and generate information from egocentric video data, addressing challenges like motion estimation, action recognition, and affordance prediction. This field is significant for advancing artificial intelligence, particularly in embodied AI and human-computer interaction, with applications ranging from assistive technologies and virtual reality to robotics and understanding human behavior. The development of large-scale datasets and standardized evaluation metrics is also driving progress.

Papers

May 25, 2023

Cross-view Action Recognition Understanding From Exocentric to Egocentric Perspective
Thanh-Dat Truong, Khoa Luu
Action Recognition Egocentric Video Egocentric View Egocentric Action Recognition Exocentric Video View Action Recognition

May 24, 2023

EgoVSR: Towards High-Quality Egocentric Video Super-Resolution
Yichen Chi, Junhao Gu, Jiamiao Zhang, Wenming Yang, Yapeng Tian
Egocentric Video Real World Video Super Resolution Blur Synthesis

May 22, 2023

Enhancing Next Active Object-based Egocentric Action Anticipation with Guided Attention
Sanket Thakur, Cigdem Beyan, Pietro Morerio, Vittorio Murino, Alessio Del Bue
Attention Mechanism Egocentric Video Action Anticipation Guided Attention Next Active Object Egocentric Action Anticipation

May 16, 2023

Understanding 3D Object Interaction from a Single Image
Shengyi Qian, David F. Fouhey
Transformer Based Model 3D Scene Affordance Learning Single Image Egocentric Video

May 9, 2023

Egocentric Hierarchical Visual Semantics
Luca Erculiani, Andrea Bontempelli, Andrea Passerini, Fausto Giunchiglia
Egocentric Video Object Recognition Visual Feature Lexical Semantics Hierarchical Semantic

March 31, 2023

Where are we in the search for an Artificial Visual Cortex for Embodied Intelligence?
Arjun Majumdar, Karmesh Yadav, Sergio Arnaud, Yecheng Jason Ma, Claire Chen, Sneha Silwal, Aryan Jain, Vincent-Pierre Berges, Pieter Abbeel, Jitendra Malik, Dhruv Batra, Yixin Lin, Oleksandr Maksymets, Aravind Rajeswaran, Franziska Meier
Supervised ImageNet Search Query Egocentric Video Embodied AI Pre Trained Representation Artificial Brain

March 29, 2023

EgoTV: Egocentric Task Verification from Natural Language Task Descriptions
Rishi Hazra, Brian Chen, Akshara Rai, Nitin Kamra, Ruta Desai
Egocentric Video Egocentric AI Natural Language Task Description

March 23, 2023

Egocentric Audio-Visual Object Localization
Chao Huang, Yapeng Tian, Anurag Kumar, Chenliang Xu
Audio Visual Egocentric Video Egocentric View Cross Modal Localization

March 15, 2023

EgoViT: Pyramid Video Transformer for Egocentric Action Recognition
Chenbin Pan, Zhiqi Zhang, Senem Velipasalar, Yi Xu
Egocentric Video Video Transformer Egocentric Action Recognition Pyramid Vision Transformer Transformer Baseline

February 13, 2023

Anticipating Next Active Objects for Egocentric Videos
Sanket Thakur, Cigdem Beyan, Pietro Morerio, Vittorio Murino, Alessio Del Bue
Egocentric Video Next Active Object Active Object

February 3, 2023

Egocentric Video Task Translation @ Ego4D Challenge 2022
Zihui Xue, Yale Song, Kristen Grauman, Lorenzo Torresani
Egocentric Video Temporal Localization EGO4D Challenge

February 1, 2023

Epic-Sounds: A Large-scale Dataset of Actions That Sound
Jaesung Huh, Jacob Chalk, Evangelos Kazakos, Dima Damen, Andrew Zisserman
Egocentric Video Human Annotation Large Scale Dataset Past Action Audio Recognition Audio Segmentation

January 26, 2023

Towards Continual Egocentric Activity Recognition: A Multi-modal Egocentric Activity Dataset for Continual Learning
Linfeng Xu, Qingbo Wu, Lili Pan, Fanman Meng, Hongliang Li, Chiyuan He, Hanxin Wang, Shaoxu Cheng, Yu Dai
Continual LEArning Action Recognition Egocentric Video Egocentric Perception Egocentric Action Recognition

January 22, 2023

Summarize the Past to Predict the Future: Natural Language Descriptions of Context Boost Multimodal Object Interaction Anticipation
Razvan-George Pasca, Alexey Gavryushin, Muhammad Hamza, Yen-Ling Kuo, Kaichun Mo, Luc Van Gool, Otmar Hilliges, Xi Wang
Vision Language Model Future Reasoning Egocentric Video Natural Language Description Spatio Temporal Context Multimodal Fusion Model Object Interaction Anticipation

January 9, 2023

EgoTracks: A Long-term Egocentric Visual Object Tracking Dataset
Hao Tang, Kevin Liang, Matt Feiszli, Weiyao Wang
Egocentric Video Visual Object Tracking Egocentric Data Egocentric AI

January 4, 2023

Chat2Map: Efficient Scene Mapping from Multi-Ego Conversations
Sagnik Majumder, Hao Jiang, Pierre Moulon, Ethan Henderson, Paul Calamia, Kristen Grauman, Vamsi Krishna Ithapu
Egocentric Video Egocentric View Audio Visual Cue Scene Mapping

December 14, 2022

EgoLoc: Revisiting 3D Object Localization from Egocentric Videos with Visual Queries
Jinjie Mai, Abdullah Hamdi, Silvio Giancola, Chen Zhao, Bernard Ghanem
3D Object Egocentric Video Visual Question Camera Relocalization 3D Localization 2 Dimensional Localization

December 13, 2022

Egocentric Video Task Translation
Zihui Xue, Yale Song, Kristen Grauman, Lorenzo Torresani
Multi Task Learning Egocentric Video Video Understanding Task Video Task

December 9, 2022

Ego-Body Pose Estimation via Ego-Head Pose Estimation
Jiaman Li, C. Karen Liu, Jiajun Wu
Pose Estimation Egocentric Video 3D Human Motion Egocentric Video Datasets

November 18, 2022

Estimating more camera poses for ego-centric videos is essential for VQ3D
Jinjie Mai, Chen Zhao, Abdullah Hamdi, Silvio Giancola, Bernard Ghanem
Egocentric Video Camera Pose 3D Localization Egocentric Camera Ego4D Natural Language Query