Visual Context

Visual context research explores how incorporating visual information improves the performance of AI models in various tasks, primarily aiming to enhance understanding and reasoning capabilities beyond simple image recognition. Current research focuses on developing multimodal models that integrate visual and textual data, often employing transformer architectures and large language models (LLMs) to process complex visual scenes and generate contextually relevant outputs. This field is significant because it addresses limitations in current AI systems, leading to improvements in applications such as image captioning, visual question answering, and autonomous driving, where understanding the visual environment is crucial.

Papers

July 9, 2022

Towards Multimodal Vision-Language Models Generating Non-Generic Text
Wes Robbins, Zanyar Zohourianshahzadi, Jugal Kalita
Vision Language Model Image Caption Visual Context Image Token Multimodal Vision Language Model

May 9, 2022

Beyond a Pre-Trained Object Detector: Cross-Modal Textual and Visual Context for Image Captioning
Chia-Wen Kuo, Zsolt Kira
Image Captioning Captioning Model Visual Context Visual Genome Multimodal Chart Pre Trained Object Visual Captioning

April 30, 2022

Improving Visual Grounding with Visual-Linguistic Verification and Iterative Reasoning
Li Yang, Yan Xu, Chunfeng Yuan, Wei Liu, Bing Li, Weiming Hu
Visual Grounding Visual Context Iterative Reasoning Cross Modal Reasoning Linguistic Reasoning

April 5, 2022

SwapMix: Diagnosing and Regularizing the Over-Reliance on Visual Context in Visual Question Answering
Vipul Gupta, Zhuowan Li, Adam Kortylewski, Chenyu Zhang, Yingwei Li, Alan Yuille
Visual Question Answering Visual Context Co Attention

February 22, 2022

Enabling Efficient Deep Convolutional Neural Network-based Sensor Fusion for Autonomous Driving
Xiaoming Zeng, Zhendong Wang, Yang Hu
Convolutional Neural Network Autonomous Driving Sensor Fusion Visual Context Fusion Weight Joint Disparity

February 10, 2022

Describing image focused in cognitive and visual details for visually impaired people: An approach to generating inclusive paragraphs
Daniel Louzada Fernandes, Marcos Henrique Fonseca Ribeiro, Fabio Ribeiro Cerqueira, Michel Melo Silva
Constructive Approach Person Name Visual Context Captioning Method Paragraph Speech Abstractive Summarisation Dense Captioning Visual Argument

December 16, 2021

Sim2Real Docs: Domain Randomization for Documents in Natural Scenes using Ray-traced Rendering
Nikhil Maddikunta, Huijun Zhao, Sumit Keswani, Alfy Samuel, Fu-Ming Guo, Nishan Srishankar, Vishwa Pardeshi, Austin Huang
Computer Vision Natural Image Document Relevance Domain Randomization Visual Context Ray Tracing PDF Document Documentation Accuracy

Visual Context

Papers

Towards Multimodal Vision-Language Models Generating Non-Generic Text

Beyond a Pre-Trained Object Detector: Cross-Modal Textual and Visual Context for Image Captioning

Improving Visual Grounding with Visual-Linguistic Verification and Iterative Reasoning

SwapMix: Diagnosing and Regularizing the Over-Reliance on Visual Context in Visual Question Answering

Enabling Efficient Deep Convolutional Neural Network-based Sensor Fusion for Autonomous Driving

Describing image focused in cognitive and visual details for visually impaired people: An approach to generating inclusive paragraphs

Sim2Real Docs: Domain Randomization for Documents in Natural Scenes using Ray-traced Rendering