Visual Perception

May 30, 2024

Visual Perception by Large Language Model's Weights
Feipeng Ma, Hongwei Xue, Guangting Wang, Yizhou Zhou, Fengyun Rao, Shilin Yan, Yueyi Zhang, Siying Wu, Mike Zheng Shou, Xiaoyan Sun
Large Language Model Multimodal Large Language Model Visual Perception Balancing Weight Visual Token Perceptual Metric

May 24, 2024

Visual Description Grounding Reduces Hallucinations and Boosts Reasoning in LVLMs
Sreyan Ghosh, Chandra Kiran Reddy Evuru, Sonal Kumar, Utkarsh Tyagi, Oriol Nieto, Zeyu Jin, Dinesh Manocha
Large Vision Language Model Content Hallucination Visual Perception Visual Recognition LLM Hallucination Visual Gap
Brain3D: Generating 3D Objects from fMRI
Yuankun Yang, Li Zhang, Ziyang Xie, Zhiyuan Yuan, Jianfeng Feng, Xiatian Zhu, Yu-Gang Jiang
Functional Magnetic Resonance Imaging Medical Diagnosis Visual Perception 3D Brain fMRI Signal fMRI Analysis
DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception
Run Luo, Yunshui Li, Longze Chen, Wanwei He, Ting-En Lin, Ziqiang Liu, Lei Zhang, Zikai Song, Xiaobo Xia, Tongliang Liu, Min Yang, Binyuan Hui
Diffusion Model Large Multimodal Model Visual Perception Image Encoder Model Hallucination Character Eye Multimodal Comprehension

May 23, 2024

Explaining Multi-modal Large Language Models by Analyzing their Vision Perception
Loris Giulivi, Giacomo Boracchi
Inherent Interpretability Multi Modal Large Language Model Visual Perception Semantic Adversarial

April 25, 2024

Semantic-aware Next-Best-View for Multi-DoFs Mobile System in Search-and-Acquisition based Visual Perception
Xiaotong Yu, Chang-Wen Chen
Search Query Visual Perception Degree of Freedom Next Best View Efficient Perception Directivity Pattern Source Directivity

April 17, 2024

How to deal with glare for improved perception of Autonomous Vehicles
Muhammad Z. Alam, Zeeshan Kaleem, Sousso Kelouwani
Autonomous Vehicle Visual Perception Visual Sensor Glare Reduction

April 3, 2024

VIAssist: Adapting Multi-modal Large Language Models for Users with Visual Impairments
Bufang Yang, Lixing He, Kaiwei Liu, Zhenyu Yan
Multi Modal Large Language Model Visual Perception User Base Visual Understanding Visual Impairment BERTScore Metric Visual Question Answer Transportation Typology

March 28, 2024

RSMamba: Remote Sensing Image Classification with State Space Model
Keyan Chen, Bowen Chen, Chenyang Liu, Wenyuan Li, Zhengxia Zou, Zhenwei Shi
Image Classification State Space Model Visual Perception Scene Classification Image Classification Datasets Remote Sensing Image Classification

March 17, 2024

MindEye2: Shared-Subject Models Enable fMRI-To-Image With 1 Hour of Data
Paul S. Scotti, Mihir Tripathy, Cesar Kadir Torrico Villanueva, Reese Kneeland, Tong Chen, Ashutosh Narang, Charan Santhirasegaran, Jonathan Xu, Thomas Naselaris, Kenneth A. Norman, Tanishq Mathew Abraham
Raw Data Functional Magnetic Resonance Imaging Visual Perception Brain Data fMRI to Image

March 14, 2024

Are Colors Quanta of Light for Human Vision? A Quantum Cognition Study of Visual Perception
Jonito Aerts Arguëlles
Perception Aware Visual Perception Light Work Physical World Human Vision Quantum Measurement Quantum Cognition Quantum Period

March 4, 2024

Improving Visual Perception of a Social Robot for Controlled and In-the-wild Human-robot Interaction
Wangjie Zhong, Leimin Tian, Duy Tho Le, Hamid Rezatofighi
Human Robot Interaction Social Robot Visual Perception Perception Model Perception Based Method

February 29, 2024

February 28, 2024

NiteDR: Nighttime Image De-Raining with Cross-View Sensor Cooperative Learning for Dynamic Driving Scenes
Cidan Shi, Lihuang Fang, Han Wu, Xiaoyu Xian, Yukai Shi, Liang Lin
Feature Fusion Visual Perception Cross View Driving Scene Nighttime Image Fusion Image

February 24, 2024

GAOKAO-MM: A Chinese Human-Level Benchmark for Multimodal Models Evaluation
Yi Zong, Xipeng Qiu
Large Vision Language Model Visual Perception Multimodal Benchmark Chinese Benchmark Multilingual Vision

February 15, 2024

The Visual Experience Dataset: Over 200 Recorded Hours of Integrated Eye Movement, Odometry, and Egocentric Video
Michelle R. Greene, Benjamin J. Balas, Mark D. Lescroart, Paul R. MacNeilage, Jennifer A. Hart, Kamran Binaee, Peter A. Hausamann, Ronald Mezile, Bharath Shankar, Christian B. Sinnott, Kaylie Capurro, Savannah Halow, Hunter Howe, Mariam Josyula, Annie Li, Abraham Mieses, Amina Mohamed, Ilya Nudnou, Ezra Parkhill, Peter Riley, Brett Schmidt, Matthew W. Shinkle, Wentao Si, Brian Szekely, Joaquin M. Torres, Eliana Weissmann
Egocentric Video Visual Perception Gaze Estimation Leg ODOmetry Temporal Data Head Motion Vision Capability

February 2, 2024

Seeing Objects in a Cluttered World: Computational Objectness from Motion in Video
Douglas Poland, Amar Saini
Arbitrary Object Motion Information Source Video Temporal Attention Visual Perception Cluttered Environment Computational Capability Multimodal Enhanced Objectness Learner

January 29, 2024

Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception
Junyang Wang, Haiyang Xu, Jiabo Ye, Ming Yan, Weizhou Shen, Ji Zhang, Fei Huang, Jitao Sang
Visual Perception Mobile Device Multimodal Agent Mobile Agent

January 15, 2024

MM-SAP: A Comprehensive Benchmark for Assessing Self-Awareness of Multimodal Large Language Models in Perception
Yuhao Wang, Yusheng Liao, Heyang Liu, Hongcheng Liu, Yu Wang, Yanfeng Wang
Multimodal Large Language Model Perception Aware Comprehensive Benchmark Visual Perception Self Awareness

Papers

Visual Perception by Large Language Model's Weights

Visual Description Grounding Reduces Hallucinations and Boosts Reasoning in LVLMs

Brain3D: Generating 3D Objects from fMRI

DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception

Explaining Multi-modal Large Language Models by Analyzing their Vision Perception

Semantic-aware Next-Best-View for Multi-DoFs Mobile System in Search-and-Acquisition based Visual Perception

How to deal with glare for improved perception of Autonomous Vehicles

VIAssist: Adapting Multi-modal Large Language Models for Users with Visual Impairments

RSMamba: Remote Sensing Image Classification with State Space Model

MindEye2: Shared-Subject Models Enable fMRI-To-Image With 1 Hour of Data

Are Colors Quanta of Light for Human Vision? A Quantum Cognition Study of Visual Perception

Improving Visual Perception of a Social Robot for Controlled and In-the-wild Human-robot Interaction

Artwork Explanation in Large-scale Vision Language Models

Aligning Knowledge Graph with Visual Perception for Object-goal Navigation

NiteDR: Nighttime Image De-Raining with Cross-View Sensor Cooperative Learning for Dynamic Driving Scenes

GAOKAO-MM: A Chinese Human-Level Benchmark for Multimodal Models Evaluation

The Visual Experience Dataset: Over 200 Recorded Hours of Integrated Eye Movement, Odometry, and Egocentric Video

Seeing Objects in a Cluttered World: Computational Objectness from Motion in Video

Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception

MM-SAP: A Comprehensive Benchmark for Assessing Self-Awareness of Multimodal Large Language Models in Perception