Visual Perception

Visual perception research focuses on understanding how humans and artificial systems interpret visual information, aiming to bridge the gap between raw sensory input and high-level cognitive understanding. Current research emphasizes evaluating large vision-language models (LVLMs) across multiple levels of perception, from low-level feature extraction to complex semantic reasoning, using benchmarks that assess both accuracy and the presence of hallucinations or biases. These efforts are crucial for improving the reliability and robustness of AI systems in various applications, from autonomous driving to assistive technologies for visually impaired individuals, and for advancing our understanding of human visual cognition.

Papers

January 8, 2024

Deep Learning for Visual Neuroprosthesis
Peter Beech, Shanshan Jia, Zhaofei Yu, Jian K. Liu
Deep Learning Visual Perception Visual Programming Visual Encoding Visual Pathway Visual Prosthesis

December 22, 2023

Harnessing Diffusion Models for Visual Perception with Meta Prompts
Qiang Wan, Zilong Huang, Bingyi Kang, Jiashi Feng, Li Zhang
Diffusion Model Semantic Segmentation Vision Model Pre Trained Diffusion Model Visual Perception Generative Pre Training

December 21, 2023

VCoder: Versatile Vision Encoders for Multimodal Large Language Models
Jitesh Jain, Jianwei Yang, Humphrey Shi
Multimodal Large Language Model Vision Language Task Visual Perception Perception Model Vision Encoders Object Perception

December 13, 2023

November 28, 2023

Gradient-based Local Next-best-view Planning for Improved Perception of Targeted Plant Nodes
Akshay K. Burusa, Eldert J. van Henten, Gert Kootstra
3D Reconstruction Visual Perception View Planning Next Best View Planning Goal Node Selective Harvesting

November 19, 2023

Generalization and Hallucination of Large Vision-Language Models through a Camouflaged Lens
Lv Tang, Peng-Tao Jiang, Zhihao Shen, Hao Zhang, Jinwei Chen, Bo Li
Strong Generalization Large Vision Language Model Content Hallucination Visual Perception Prey Camouflage

November 11, 2023

November 10, 2023

Semantic Map Guided Synthesis of Wireless Capsule Endoscopy Images using Diffusion Models
Haejin Lee, Jeongwoo Ju, Jonghyuck Lee, Yeoun Joo Lee, Heechul Jung
Diffusion Model Generative Model Visual Perception Semantic Map Gastrointestinal Tract Wireless Capsule Endoscopy

October 31, 2023

A Multi-Modal Foundation Model to Assist People with Blindness and Low Vision in Environmental Interaction
Yu Hao, Fan Yang, Hao Huang, Shuaihang Yuan, Sundeep Rangan, John-Ross Rizzo, Yao Wang, Yi Fang
Large Vision Language Model Person Name Environment Feature Visual Perception Scene Recognition Multi Modal Foundation Model Blind User Image Tagging

October 20, 2023

Steve-Eye: Equipping LLM-based Embodied Agents with Visual Perception in Open Worlds
Sipeng Zheng, Jiazheng Liu, Yicheng Feng, Zongqing Lu
Large Multimodal Model Open World LLM Based Agent Visual Perception Embodied Agent Multimodal Perception Scene Benchmark Multimodal Feedback

October 18, 2023

Brain decoding: toward real-time reconstruction of visual perception
Yohann Benchetrit, Hubert Banville, Jean-Rémi King
Functional Magnetic Resonance Imaging Brain Function Visual Perception MEG Decoder

October 12, 2023

Self-supervised visual learning for analyzing firearms trafficking activities on the Web
Sotirios Konstantakos, Despina Ioanna Chalkiadaki, Ioannis Mademlis, Adamantia Anna Rebolledo Chrysochoou, Georgios Th. Papadopoulos
Convolutional Neural Network Deep Neural Network Visual Perception Generating User Activity Visual Learning

October 11, 2023

Optimizing the Placement of Roadside LiDARs for Autonomous Driving
Wentao Jiang, Hao Xiang, Xinyu Cai, Runsheng Xu, Jiaqi Ma, Yikang Li, Gim Hee Lee, Si Liu
Autonomous Driving Visual Perception Global Placement Multi Agent Collaborative Perception Roadside Lidar LiDAR Placement

September 26, 2023

Unidirectional brain-computer interface: Artificial neural network encoding natural images to fMRI response in the visual cortex
Ruixing Liang, Xiangyu Zhang, Qiong Li, Lai Wei, Hexin Liu, Avisha Kumar, Kelley M. Kempski Leadingham, Joshua Punnoose, Leibny Paola Garcia, Amir Manbachi
Neural Network Natural Image Visual Perception Human Brain Neural Activity Non Negative Textual Response Visual Input

September 16, 2023

Enhancing Visual Perception in Novel Environments via Incremental Data Augmentation Based on Style Transfer
Abhibha Gupta, Rully Agus Hendrawan, Mansur Arief
Generative Model Data Augmentation Style Transfer Visual Perception New Environment Variational Encoder Domain Specific Augmentation Augmented Dataset

August 24, 2023

Enhancing Perception and Immersion in Pre-Captured Environments through Learning-Based Eye Height Adaptation
Qi Feng, Hubert P. H. Shum, Shigeo Morishima
Visual Perception Narrative Immersion Perceptual Distance Egocentric 3D

August 19, 2023

UniAP: Towards Universal Animal Perception in Vision via Few-shot Learning
Meiqi Sun, Zhonghan Zhao, Wenhao Chai, Hanjun Luo, Shidong Cao, Yanting Zhang, Jenq-Neng Hwang, Gaoang Wang
Shot Learning Vision Paper Visual Perception Deep Learning Based Perception Universal Visual Perception

August 3, 2023

VisAlign: Dataset for Measuring the Degree of Alignment between AI and Humans in Visual Perception
Jiyoung Lee, Seungho Kim, Seunghyun Won, Joonseok Lee, Marzyeh Ghassemi, James Thorne, Jaeseok Choi, O-Kil Kwon, Edward Choi
Artificial Intelligence Data Set Alignment Problem Visual Perception Perception Model AI Alignment Visual Alignment

Visual Perception

Papers

Deep Learning for Visual Neuroprosthesis

Harnessing Diffusion Models for Visual Perception with Meta Prompts

VCoder: Versatile Vision Encoders for Multimodal Large Language Models

EVP: Enhanced Visual Perception using Inverse Multi-Attentive Feature Refinement and Regularized Image-Text Alignment

PerMod: Perceptually Grounded Voice Modification with Latent Diffusion Models

Gradient-based Local Next-best-view Planning for Improved Perception of Targeted Plant Nodes

Generalization and Hallucination of Large Vision-Language Models through a Camouflaged Lens

PerceptionGPT: Effectively Fusing Visual Perception into LLM

Generation Of Colors using Bidirectional Long Short Term Memory Networks

Semantic Map Guided Synthesis of Wireless Capsule Endoscopy Images using Diffusion Models

A Multi-Modal Foundation Model to Assist People with Blindness and Low Vision in Environmental Interaction

Steve-Eye: Equipping LLM-based Embodied Agents with Visual Perception in Open Worlds

Brain decoding: toward real-time reconstruction of visual perception

Self-supervised visual learning for analyzing firearms trafficking activities on the Web

Optimizing the Placement of Roadside LiDARs for Autonomous Driving

Unidirectional brain-computer interface: Artificial neural network encoding natural images to fMRI response in the visual cortex

Enhancing Visual Perception in Novel Environments via Incremental Data Augmentation Based on Style Transfer

Enhancing Perception and Immersion in Pre-Captured Environments through Learning-Based Eye Height Adaptation

UniAP: Towards Universal Animal Perception in Vision via Few-shot Learning

VisAlign: Dataset for Measuring the Degree of Alignment between AI and Humans in Visual Perception