Visual Language

Visual language research focuses on enabling computers to understand and interact with information presented in both visual and textual formats, aiming to bridge the gap between human perception and machine comprehension. Current research emphasizes developing robust multimodal models, often based on transformer architectures, to handle complex visual-linguistic tasks like visual grounding, navigation, and question answering, with a particular focus on improving efficiency and addressing limitations in reasoning about relationships and handling diverse textual expressions. This field is significant for advancing artificial intelligence, enabling applications such as robotic navigation, image retrieval, and multimodal conversational systems, and fostering a deeper understanding of how humans process visual and linguistic information.

Papers

December 12, 2023

VILA: On Pre-training for Visual Language Models
Ji Lin, Hongxu Yin, Wei Ping, Yao Lu, Pavlo Molchanov, Andrew Tao, Huizi Mao, Jan Kautz, Mohammad Shoeybi, Song Han
Visual Language Model Optimal Layout Visual Language Visual Instruction Multi Modal Pre Training

December 6, 2023

VLFM: Vision-Language Frontier Maps for Zero-Shot Semantic Navigation
Naoki Yokoyama, Sehoon Ha, Dhruv Batra, Jiuguang Wang, Bernadette Bucher
Language Model Zero Shot Visual Language Zero Shot Object Navigation Object Goal Navigation Task Semantic Navigation

November 22, 2023

Perceptual Structure in the Absence of Grounding for LLMs: The Impact of Abstractedness and Subjectivity in Color Language
Pablo Loyola, Edison Marrese-Taylor, Andres Hoyos-Idobro
Medical LLM Visual Language Subjective Knowledge Color Space Color Perception Perceptual Concept

November 13, 2023

VGSG: Vision-Guided Semantic-Group Network for Text-based Person Search
Shuting He, Hao Luo, Wei Jiang, Xudong Jiang, Henghui Ding
Visual Language Semantic Textual Relatedness Text Based Person Search Text Feature Group Convolutional Neural Network

October 16, 2023

Vision and Language Navigation in the Real World via Online Visual Language Mapping
Chengguang Xu, Hieu T. Nguyen, Christopher Amato, Lawson L. S. Wong
Real World Vision Paper Vision and Language Navigation Language Navigation Unseen Environment Visual Language Novel Navigation

October 3, 2023

Talk2BEV: Language-enhanced Bird's-eye View Maps for Autonomous Driving
Tushar Choudhary, Vikrant Dewangan, Shivam Chandhok, Shubham Priyadarshan, Anushka Jain, Arun K. Singh, Siddharth Srivastava, Krishna Murthy Jatavallabhula, K. Madhava Krishna
Autonomous Driving Large Vision Language Model Bird'S Eye View Ground Truth Annotation Visual Language

October 2, 2023

Towards reporting bias in visual-language datasets: bimodal augmentation by decoupling object-attribute association
Qiyu Wu, Mengjie Zhao, Yutong He, Lang Huang, Junya Ono, Hiromi Wakaki, Yuki Mitsufuji
Absolute Stance Bias Cross Modal Visual Language Hard Negative

September 21, 2023

Fully Transformer-Equipped Architecture for End-to-End Referring Video Object Segmentation
Ping Li, Yu Zhang, Li Yuan, Xianghua Xu
Visual Language Spatial Context Referring Video Object Segmentation Mask Sequence

August 24, 2023

Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language Pretraining?
Fei Wang, Liang Ding, Jun Rao, Ye Liu, Li Shen, Changxing Ding
Vision Language Multimodal Phenomenon Semantic Structure Visual Language Multimodal Alignment

July 25, 2023

The Visual Language of Fabrics
Valentin Deschaintre, Julia Guerrero-Viu, Diego Gutierrez, Tamy Boubekeur, Belen Masia
Natural Language Description Visual Language Geometric Fabric Fine Grained Image Retrieval Material Descriptor

July 20, 2023

Learning Discriminative Visual-Text Representation for Polyp Re-Identification
Suncheng Xiang, Cang Liu, Sijia Du, Dahong Qian
Contrastive Learning Polyp Segmentation Visual Representation Learning Visual Language Video Polyp Segmentation

June 30, 2023

Zero-shot Nuclei Detection via Visual-Language Pre-trained Models
Yongjian Wu, Yang Zhou, Jiya Saiyin, Bingzheng Wei, Maode Lai, Jianzhong Shou, Yubo Fan, Yan Xu
Full Model Vision Language Pre Trained Vision Language Model Visual Language Nucleus Detection

May 11, 2023

Learning the Visualness of Text Using Large Vision-Language Models
Gaurav Verma, Ryan A. Rossi, Christopher Tensmeyer, Jiuxiang Gu, Ani Nenkova
LeArning Abstract Text Modality Large Vision Language Model Text to Image Generation Visual Language Text to Image Retrieval Visual Text

April 10, 2023

Interaction-Aware Prompting for Zero-Shot Spatio-Temporal Action Detection
Wei-Jhe Huang, Jheng-Hsien Yeh, Min-Hung Chen, Gueter Josmy Faure, Shang-Hong Lai
Vision Language Zero Shot Learning Temporal Action Detection Visual Language Aware Prompting Zero Shot Temporal Action

March 13, 2023

Audio Visual Language Maps for Robot Navigation
Chenguang Huang, Oier Mees, Andy Zeng, Wolfram Burgard
Robot Navigation Multimodal Foundation Model Visual Language Cross Modal Information Zero Shot Object Navigation Multimodal Query

December 20, 2022

DePlot: One-shot visual language reasoning by plot-to-table translation
Fangyu Liu, Julian Martin Eisenschlos, Francesco Piccinno, Syrine Krichene, Chenxi Pang, Kenton Lee, Mandar Joshi, Wenhu Chen, Nigel Collier, Yasemin Altun
Scene Text Visual Language Shot Reasoning Visual Language Reasoning

November 29, 2022

PiggyBack: Pretrained Visual Question Answering Environment for Backing up Non-deep Learning Professionals
Zhihao Zhang, Siwen Luo, Junyi Chen, Sijia Lai, Siqu Long, Hyunsuk Chung, Soyeon Caren Han
Visual Language Model Visual Language Non Expert Visual Question Answering Model Large Vision Language

November 3, 2022

Grounding Scene Graphs on Natural Images via Visio-Lingual Message Passing
Aditay Tripathi, Anand Mishra, Anirban Chakraborty
Scene Graph Natural Image Object Localization Object Representation Message Passing Graph Neural Network Visual Language

October 11, 2022

Visual Language Maps for Robot Navigation
Chenguang Huang, Oier Mees, Andy Zeng, Wolfram Burgard
Robot Navigation Open Vocabulary Visual Language Model Visual Language Map Representation Obstacle Map

August 19, 2022

Open Vocabulary Multi-Label Classification with Dual-Modal Decoder on Aligned Visual-Textual Features
Shichao Xu, Yikang Li, Jenhao Hsiao, Chiuman Ho, Zhu Qi
Multi Label Multi Label Classification Open Vocabulary Visual Language Modality Alignment Multi Label Recognition