Pixel Wise Guidance

Pixel-wise guidance in computer vision leverages fine-grained image information to improve the accuracy and controllability of various tasks. Current research focuses on integrating this approach with diverse models, including neural radiance fields (NeRFs), diffusion models, and large language models (LLMs), to enhance applications such as image editing, 3D scene generation, and autonomous navigation. This technique is proving valuable across numerous domains, from medical imaging (e.g., improving colonoscopy and echocardiography) to remote sensing and autonomous driving, by providing more precise and user-friendly control over complex systems. The resulting improvements in accuracy and efficiency have significant implications for both scientific advancement and real-world applications.

Papers

November 27, 2024

Grid-augumented vision: A simple yet effective approach for enhanced spatial understanding in multi-modal agents
Joongwon Chae, Zhenyu Wang, Peiwu Qin
Vision Paper Spatial Reasoning Multimodal Agent Effective Approach Spatial Understanding Precise Localization Pixel Wise Guidance

October 12, 2024

Toward Guidance-Free AR Visual Generation via Condition Contrastive Alignment
Huayu Chen, Hang Su, Peize Sun, Jun Zhu
Generative Model Image Generation Alignment Problem Contrastive Example Multi Modal Generation Autoregressive Image Generation Pixel Wise Guidance

September 25, 2024

AI-driven View Guidance System in Intra-cardiac Echocardiography Imaging
Jaeyoung Huh, Paul Klein, Gareth Funka-Lea, Puneet Sharma, Ankur Kapoor, Young-Ho Kim
Human in the Loop Pixel Wise Guidance Intra Cardiac Echocardiography

July 19, 2024

Semantic-CC: Boosting Remote Sensing Image Change Captioning via Foundational Knowledge and Semantic Guidance
Yongshuo Zhu, Lu Li, Keyan Chen, Chenyang Liu, Fugen Zhou, Zhenwei Shi
Change Detection Semantic Guidance Pixel Wise Guidance Change Captioning Remote Sensing Image Change Captioning Core Knowledge

April 12, 2024

MonoPatchNeRF: Improving Neural Radiance Fields with Patch-based Monocular Guidance
Yuqun Wu, Jae Yong Lee, Chuhang Zou, Shenlong Wang, Derek Hoiem
Neural Radiance Field Multi View Stereo Depth Estimate Pixel Wise Guidance Ray Sampling

December 31, 2023

TrailBlazer: Trajectory Control for Diffusion-Based Video Generation
Wan-Duo Kurt Ma, J. P. Lewis, W. Bastiaan Kleijn
Text to Video Bounding Box Synthetic Video Video Synthesis Fidelity Reward Diffusion Based Video Generation Pixel Wise Guidance

December 12, 2023

Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance
Kuan-Chih Huang, Yi-Hsuan Tsai, Ming-Hsuan Yang
3D Object Detection 3D Detector 3D Annotation 3D Label Pixel Wise Guidance Weakly Supervised 3D Object Detection

September 19, 2023

Bridging Zero-shot Object Navigation and Foundation Models through Pixel-Guided Navigation Skill
Wenzhe Cai, Siyuan Huang, Guangran Cheng, Yuxing Long, Peng Gao, Changyin Sun, Hao Dong
Foundation Model Navigation Task Local Path Planning Long Horizon Navigation Zero Shot Object Navigation Pixel Wise Guidance

June 7, 2023

ColNav: Real-Time Colon Navigation for Colonoscopy
Netanel Frank, Erez Posner, Emmanuelle Muhlethaler, Adi Zholkover, Moshe Bouhnik
Polyp Detection Colonoscopy Data Pixel Wise Guidance Small Bowel Path Tracking

April 11, 2023

Pixel-wise Guidance for Utilizing Auxiliary Features in Monte Carlo Denoising
Kyu Beom Han, Olivia G. Odenthal, Woo Jae Kim, Sung-Eui Yoon
Denoising Process Pixel Wise Guidance Auxiliary Feature

March 24, 2023

CompoNeRF: Text-guided Multi-object Compositional NeRF with Editable 3D Scene Layout
Haotian Bai, Yuanhuiyi Lyu, Lutao Jiang, Sijia Li, Haonan Lu, Xiaodong Lin, Lin Wang
Neural Radiance Field 3D Scene 3D Object Generation Pixel Wise Guidance Human NeRF

February 13, 2023

Hyperspectral Image Super Resolution with Real Unaligned RGB Guidance
Zeqiang Lai, Ying Fu, Jun Zhang
Super Resolution Image Fusion Hyperspectral Image Super Resolution Pixel Wise Guidance

December 5, 2022

Fine-grained Image Editing by Pixel-wise Guidance Using Diffusion Models
Naoki Matsunaga, Masato Ishii, Akio Hayakawa, Kenji Suzuki, Takuya Narihira
Diffusion Model Pre Trained Diffusion Model GAN Based Diffusion Based Image Editing Pixel Wise Guidance Fine Grained Image Editing

September 20, 2022

Evaluation Framework for Computer Vision-Based Guidance of the Visually Impaired
Krešimir Romić, Irena Galić, Marija Habijan, Hrvoje Leventić
Computer Vision Human Decision Evaluation Framework Digital Computer Based Navigation Pixel Wise Guidance Assistance System

August 17, 2022

Text-to-Image Generation via Implicit Visual Guidance and Hypernetwork
Xin Yuan, Zhe Lin, Jason Kuen, Jianming Zhang, John Collomosse
Text to Image Generation Image Retrieval Text Encoder Non Graph Hypernetwork Baseline Pixel Wise Guidance GAN Generated Image

December 7, 2021

Vision-Cloud Data Fusion for ADAS: A Lane Change Prediction Case Study
Yongkang Liu, Ziran Wang, Kyungtae Han, Zhenyu Shou, Prashant Tiwari, John H. L. Hansen
Driver Assistance System Lane Change Intelligent Vehicle Pixel Wise Guidance Advanced Driver Assistance System