Visual Input

Visual input processing is a rapidly evolving field aiming to enable machines to understand and reason with visual information as effectively as humans. Current research focuses on improving the visual comprehension of large language and vision-language models (VLMs) through techniques like active perception, attention mechanisms inspired by human gaze, and multimodal prompt engineering, often employing transformer-based architectures. These advancements are crucial for improving the performance of autonomous systems, assistive technologies for the visually impaired, and applications requiring robust visual reasoning, while also revealing and mitigating biases inherent in these models.

Papers

July 31, 2024

Cross-modality Information Check for Detecting Jailbreaking in Multimodal Large Language Models
Yue Xu, Xiuyuan Qi, Zhan Qin, Wenjie Wang
Vision Language Model Multi Modal Jailbreak Attack Multimodal Information Adversarial Image Visual Input

July 28, 2024

AdaCoder: Adaptive Prompt Compression for Programmatic Visual Question Answering
Mahiro Ukai, Shuhei Kurita, Atsushi Hashimoto, Yoshitaka Ushiku, Nakamasa Inoue
Visual Question Answering Visual Input Long Input Effective Prompt Prompt Compression

June 27, 2024

The Illusion of Competence: Evaluating the Effect of Explanations on Users' Mental Models of Visual Question Answering Systems
Judith Sieker, Simeon Junker, Ronja Utescher, Nazia Attari, Heiko Wersing, Hendrik Buschmeier, Sina Zarrieß
Line by Line Explanation Visual Question Answering Artificial Intelligence System Visual Input Optical Illusion Mental Model Competency Assessment

June 4, 2024

Story Generation from Visual Inputs: Techniques, Related Tasks, and Challenges
Daniel A. P. Oliveira, Eugénio Ribeiro, David Martins de Matos
Technical Challenge Related Task Barzilai Borwein Technique Story Generation Visual Data Visual Input Spoken Narrative Visual Story Generation

May 30, 2024

Uncovering Bias in Large Vision-Language Models at Scale with Counterfactuals
Phillip Howard, Kathleen C. Fraser, Anahita Bhiwandiwalla, Svetlana Kiritchenko
Large Vision Language Model Visual Analogue Scale Social Bias High Quality Counterfactuals Visual Input Bias Discovery

May 28, 2024

RITUAL: Random Image Transformations as a Universal Anti-hallucination Lever in Large Vision Language Models
Sangmin Woo, Jaehyuk Jang, Donguk Kim, Yubin Choi, Changick Kim
Large Vision Language Model Mitigating Hallucination Visual Input Model Hallucination Contrastive Decoding Random Transformation

May 24, 2024

Prompt-Aware Adapter: Towards Learning Adaptive Visual Tokens for Multimodal Large Language Models
Yue Zhang, Hehe Fan, Yi Yang
Multimodal Large Language Model Visual Token Visual Input ProMpt Adapter Visual Clue

April 15, 2024

Enhancing Robot Explanation Capabilities through Vision-Language Models: a Preliminary Study by Interpreting Visual Inputs for Improved Human-Robot Interaction
David Sobrín-Hidalgo, Miguel Ángel González-Santamarta, Ángel Manuel Guerrero-Higueras, Francisco Javier Rodríguez-Lera, Vicente Matellán-Olivera
Vision Language Model Human Robot Interaction Autonomous Robot Natural Language Explanation Preliminary Study Visual Input Robot Explanation

April 12, 2024

Training a Vision Language Model as Smartphone Assistant
Nicolai Dorka, Janusz Marecki, Ammar Anwar
Vision Language Visual Language Model High Quality Gesture Visual Input Digital Assistant

April 10, 2024

Vision-Language Model-based Physical Reasoning for Robot Liquid Perception
Wenqiang Lai, Yuan Gao, Tin Lun Lam
Large Vision Language Model Visual Representation Visual Input Multimodal Perception Vision Language Reasoning Liquid State Liquid Perception

April 7, 2024

Reconstructing Retinal Visual Images from 3T fMRI Data Enhanced by Unsupervised Learning
Yujian Xiong, Wenhui Zhu, Zhong-Lin Lu, Yalin Wang
Generative Adversarial Network Unsupervised Learning Functional Magnetic Resonance Imaging Visual Input Retinal Image

March 29, 2024

Uncovering Bias in Large Vision-Language Models with Counterfactuals
Phillip Howard, Anahita Bhiwandiwalla, Kathleen C. Fraser, Svetlana Kiritchenko
Large Vision Language Model Social Bias High Quality Counterfactuals Visual Input Multimodal Dialogue Bias Discovery

March 25, 2024

Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning
Hao Shao, Shengju Qian, Han Xiao, Guanglu Song, Zhuofan Zong, Letian Wang, Yu Liu, Hongsheng Li
Complex Reasoning Chain of Thought Multi Modal Large Language Model Visual Input Multi Modal Language Model

March 8, 2024

Debiasing Multimodal Large Language Models
Yi-Fan Zhang, Weichen Yu, Qingsong Wen, Xue Wang, Zhang Zhang, Liang Wang, Rong Jin, Tieniu Tan
Language Model Large Vision Language Model Visual Input Contrastive Decoding Ambiguous Input

March 6, 2024

Learning 3D object-centric representation through prediction
John Day, Tushar Arora, Jirui Liu, Li Erran Li, Ming Bo Cai
LeArning Abstract Human Prediction Object Representation Object Centric Visual Input Segment Object Mental Representation Depth Perception

February 28, 2024

All in an Aggregated Image for In-Image Learning
Lei Wang, Wanyu Xu, Zhiqiang Hu, Yihuai Lan, Shan Dong, Hao Wang, Roy Ka-Wei Lee, Ee-Peng Lim
Large Multimodal Model Multimodal Reasoning Visual Input Visual in Context Learning

February 15, 2024

Analyzing the Roles of Language and Vision in Learning from Limited Data
Allison Chen, Ilia Sucholutsky, Olga Russakovsky, Thomas L. Griffiths
Language Model LeArning Abstract Vision Language Human Language Vision Paper Limited Data Cognitive Architecture Visual Input Visual Imagery Multi Role

December 19, 2023

Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model
Shraman Pramanick, Guangxing Han, Rui Hou, Sayan Nag, Ser-Nam Lim, Nicolas Ballas, Qifan Wang, Rama Chellappa, Amjad Almahairi
Vision Language Model Expert Knowledge New Task Coarse to Fine Visual Input Image Tokenizer Instruction Quality Fine Grained Vision Language

December 8, 2023

GlitchBench: Can large multimodal models detect video game glitches?
Mohammad Reza Taesiri, Tianjun Feng, Anh Nguyen, Cor-Paul Bezemer
Large Multimodal Model Visual Understanding Visual Input Input Modality Game Testing Glitch Classification

November 28, 2023

Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding
Sicong Leng, Hang Zhang, Guanzheng Chen, Xin Li, Shijian Lu, Chunyan Miao, Lidong Bing
Large Vision Language Model Contrastive Language Image Mitigating Hallucination Visual Input Contrastive Decoding Object Hallucination

Visual Input

Papers

Cross-modality Information Check for Detecting Jailbreaking in Multimodal Large Language Models

AdaCoder: Adaptive Prompt Compression for Programmatic Visual Question Answering

The Illusion of Competence: Evaluating the Effect of Explanations on Users' Mental Models of Visual Question Answering Systems

Story Generation from Visual Inputs: Techniques, Related Tasks, and Challenges

Uncovering Bias in Large Vision-Language Models at Scale with Counterfactuals

RITUAL: Random Image Transformations as a Universal Anti-hallucination Lever in Large Vision Language Models

Prompt-Aware Adapter: Towards Learning Adaptive Visual Tokens for Multimodal Large Language Models

Enhancing Robot Explanation Capabilities through Vision-Language Models: a Preliminary Study by Interpreting Visual Inputs for Improved Human-Robot Interaction

Training a Vision Language Model as Smartphone Assistant

Vision-Language Model-based Physical Reasoning for Robot Liquid Perception

Reconstructing Retinal Visual Images from 3T fMRI Data Enhanced by Unsupervised Learning

Uncovering Bias in Large Vision-Language Models with Counterfactuals

Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning

Debiasing Multimodal Large Language Models

Learning 3D object-centric representation through prediction

All in an Aggregated Image for In-Image Learning

Analyzing the Roles of Language and Vision in Learning from Limited Data

Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model

GlitchBench: Can large multimodal models detect video game glitches?

Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding