Human Centric Visual

Human-centric visual research focuses on developing computer vision systems that understand and interpret images from a human perspective, prioritizing the detection and analysis of human actions, interactions, and contextual information. Current research emphasizes the use of transformer-based models, often incorporating vision-language models and autoregressive techniques, to generate and utilize human-centric visual cues such as body language and environmental context for tasks like human-object interaction detection and 360-degree image generation. Addressing biases in existing datasets, particularly concerning geographic representation, is also a critical area of investigation, aiming to improve the fairness and generalizability of these models. This work has significant implications for improving the accuracy and robustness of computer vision systems across diverse applications, including virtual reality and human-computer interaction.

Papers

November 26, 2023

Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models
Yu-Wei Zhan, Fan Liu, Xin Luo, Xin-Shun Xu, Liqiang Nie, Mohan Kankanhalli
Large Vision Language Model Human Object Interaction Human Object Interaction Detection Visual Cue Human Object Pair Human Centric Visual

September 7, 2023

Autoregressive Omni-Aware Outpainting for Open-Vocabulary 360-Degree Image Generation
Zhuqiang Lu, Kun Hu, Chaoyue Wang, Lei Bai, Zhiyong Wang
End to End Image Generation Autoregressive Generative Model Omni Supervised Human Centric Visual

August 16, 2023

Flickr Africa: Examining Geo-Diversity in Large-Scale, Human-Centric Visual Data
Keziah Naggita, Julienne LaChance, Alice Xiang
Large Scale Computer Vision Model Image Data Diverse Image Geo Diverse Human Centric Visual

April 19, 2022

Not All Tokens Are Equal: Human-centric Visual Analysis via Token Clustering Transformer
Wang Zeng, Sheng Jin, Wentao Liu, Chen Qian, Ping Luo, Wanli Ouyang, Xiaogang Wang
Vision Transformer Vision Task K TOKEN Human Centric Novel Vision Transformer Token Clustering Human Centric Visual

Human Centric Visual

Papers

Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models

Autoregressive Omni-Aware Outpainting for Open-Vocabulary 360-Degree Image Generation

Flickr Africa: Examining Geo-Diversity in Large-Scale, Human-Centric Visual Data

Not All Tokens Are Equal: Human-centric Visual Analysis via Token Clustering Transformer