Visual Input

Visual input processing is a rapidly evolving field aiming to enable machines to understand and reason with visual information as effectively as humans. Current research focuses on improving the visual comprehension of large language and vision-language models (VLMs) through techniques like active perception, attention mechanisms inspired by human gaze, and multimodal prompt engineering, often employing transformer-based architectures. These advancements are crucial for improving the performance of autonomous systems, assistive technologies for the visually impaired, and applications requiring robust visual reasoning, while also revealing and mitigating biases inherent in these models.

Papers

November 20, 2023

Categorizing the Visual Environment and Analyzing the Visual Attention of Dogs
Shreyas Sundara Raman, Madeline H. Pelgrim, Daphna Buchsbaum, Thomas Serre
Visual Attention Visual Feature Visual Input PET Dog Fixation Prediction Gaze Pattern

October 14, 2023

Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning
Jiachen Li, Qiaozi Gao, Michael Johnston, Xiaofeng Gao, Xuehai He, Suhaila Shakiah, Hangjie Shi, Reza Ghanadan, William Yang Wang
Prompt Learning Robot Manipulation Prompt Based Learning Multimodal Understanding Visual Input Multimodal Prompt

September 26, 2023

Unidirectional brain-computer interface: Artificial neural network encoding natural images to fMRI response in the visual cortex
Ruixing Liang, Xiangyu Zhang, Qiong Li, Lai Wei, Hexin Liu, Avisha Kumar, Kelley M. Kempski Leadingham, Joshua Punnoose, Leibny Paola Garcia, Amir Manbachi
Neural Network Natural Image Visual Perception Human Brain Neural Activity Non Negative Textual Response Visual Input

September 14, 2023

Empowering Visually Impaired Individuals: A Novel Use of Apple Live Photos and Android Motion Photos
Seyedalireza Khoshsirat, Chandra Kambhamettu
Vision Task Visual Input Novel Application Single Frame Video Motion

September 9, 2023

Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization
Yang Jin, Kun Xu, Kun Xu, Liwei Chen, Chao Liao, Jianchao Tan, Quzhe Huang, Bin Chen, Chenyi Lei, An Liu, Chengru Song, Xiaoqiang Lei, Di Zhang, Wenwu Ou, Kun Gai, Yadong Mu
Large Language Model Vision Language Visual Token Visual Input Visual Tokenizer

August 29, 2023

Enhancing Robot Learning through Learned Human-Attention Feature Maps
Daniel Scheuchenstuhl, Stefan Ulmer, Felix Resch, Luigi Berducci, Radu Grosu
Imitation Learning Attention Mechanism Robot Learning Attention Map Visual Input

August 26, 2023

Fixating on Attention: Integrating Human Eye Tracking into Vision Transformers
Sharath Koorathota, Nikolas Papadopoulos, Jia Li Ma, Shruti Kumar, Xiaoxiao Sun, Arunesh Mittal, Patrick Adelman, Paul Sajda
Vision Transformer Human Attention Visual Attention Eye Tracking Visual Input Fixation Prediction Gaze Tracking

July 27, 2023

How Good is Google Bard's Visual Understanding? An Empirical Study on Open Challenges
Haotong Qin, Ge-Peng Ji, Salman Khan, Deng-Ping Fan, Fahad Shahbaz Khan, Luc Van Gool
Empirical Study Multi Modal Conversational AI Visual Perception Open Challenge Visual Understanding Visual Input Fine Grained Visual Google Bard

June 19, 2023

The Psychophysics of Human Three-Dimensional Active Visuospatial Problem-Solving
Markus D. Solbach, John K. Tsotsos
Human Generated Visual Input Visual Stimulus Psychophysical Task

June 12, 2023

When Vision Fails: Text Attacks Against ViT and OCR
Nicholas Boucher, Jenny Blessing, Ilia Shumailov, Ross Anderson, Nicolas Papernot
Adversarial Example Vision Paper Visual Input Gallery Style OCR ViT Lens Text Attack Text Based Model

June 4, 2023

Systematic Visual Reasoning through Object-Centric Relational Abstraction
Taylor W. Webb, Shanka Subhra Mondal, Jonathan D. Cohen
Visual Reasoning Object Centric Representation Human Reasoning Visual Input

May 24, 2023

Pento-DIARef: A Diagnostic Dataset for Learning the Incremental Algorithm for Referring Expression Generation from Examples
Philipp Sadler, David Schlangen
NLP Task Neural Model Description Library Fewer Example Visual Input Expression Generation Incremental Algorithm Diagnostic Dataset

May 19, 2023

LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and Generation
Suhyeon Lee, Won Jun Kim, Jinho Chang, Jong Chul Ye
Faithful Generation Instruction Tuning Chest X Ray Multimodal Reasoning Visual Input Vision Language Alignment

April 28, 2023

LostPaw: Finding Lost Pets using a Contrastive Learning-based Transformer with Visual Input
Andrei Voinea, Robin Kock, Maruf A. Dhali
Contrastive Learning Visual Input Image Database Contrastive Transformer PET Image

March 20, 2023

Neural Constraint Satisfaction: Hierarchical Abstraction for Combinatorial Generalization in Object Rearrangement
Michael Chang, Alyssa L. Dayan, Franziska Meier, Thomas L. Griffiths, Sergey Levine, Amy Zhang
Offline Reinforcement Learning Visual Input Object Rearrangement Constraint Learning Rearrangement Task Combinatorial Generalization Multilevel Abstraction

March 14, 2023

Vision-based route following by an embodied insect-inspired sparse neural network
Lu Yihe, Rana Alkhoury Maroun, Barbara Webb
Navigation Task Visual Input Sparse Model Sparse Neural Network Based Navigation

February 28, 2023

Task-Oriented Grasp Prediction with Visual-Language Inputs
Chao Tang, Dehao Huang, Lingxiao Meng, Weiyu Liu, Hong Zhang
Visual Input Object Grounding Task Oriented Grasping Grasp Prediction Language Guided

February 9, 2023

A Large-Scale Multilingual Study of Visual Constraints on Linguistic Selection of Descriptions
Uri Berger, Lea Frermann, Gabriel Stanovsky, Omri Abend
Language Generation Description Library Visual Input Linguistic Property Visibility Constraint Linguistic Practice

December 21, 2022

ReVISE: Self-Supervised Speech Resynthesis with Visual Input for Universal and Generalized Speech Enhancement
Wei-Ning Hsu, Tal Remez, Bowen Shi, Jacob Donley, Yossi Adi
Universal Image Visual Input Video Quality Enhancement Speech Resynthesis

November 29, 2022

Abstract Visual Reasoning with Tangram Shapes
Anya Ji, Noriyuki Kojima, Noah Rush, Alane Suhr, Wai Keen Vong, Robert D. Hawkins, Yoav Artzi
Cognitive Science Visual Input Abstract Reasoning Abstract Visual Reasoning

Visual Input

Papers

Categorizing the Visual Environment and Analyzing the Visual Attention of Dogs

Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning

Unidirectional brain-computer interface: Artificial neural network encoding natural images to fMRI response in the visual cortex

Empowering Visually Impaired Individuals: A Novel Use of Apple Live Photos and Android Motion Photos

Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization

Enhancing Robot Learning through Learned Human-Attention Feature Maps

Fixating on Attention: Integrating Human Eye Tracking into Vision Transformers

How Good is Google Bard's Visual Understanding? An Empirical Study on Open Challenges

The Psychophysics of Human Three-Dimensional Active Visuospatial Problem-Solving

When Vision Fails: Text Attacks Against ViT and OCR

Systematic Visual Reasoning through Object-Centric Relational Abstraction

Pento-DIARef: A Diagnostic Dataset for Learning the Incremental Algorithm for Referring Expression Generation from Examples

LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and Generation

LostPaw: Finding Lost Pets using a Contrastive Learning-based Transformer with Visual Input

Neural Constraint Satisfaction: Hierarchical Abstraction for Combinatorial Generalization in Object Rearrangement

Vision-based route following by an embodied insect-inspired sparse neural network

Task-Oriented Grasp Prediction with Visual-Language Inputs

A Large-Scale Multilingual Study of Visual Constraints on Linguistic Selection of Descriptions

ReVISE: Self-Supervised Speech Resynthesis with Visual Input for Universal and Generalized Speech Enhancement

Abstract Visual Reasoning with Tangram Shapes