Visual Model

Visual models are computational systems designed to process and understand visual information, aiming to replicate or surpass human-level visual perception and reasoning. Current research emphasizes improving model accuracy, interpretability, and robustness through techniques like dilated convolutions with learnable spacings, adaptive model selection based on context, and the integration of visual models with large language models for multimodal tasks. These advancements are significant for various applications, including video production, remote sensing, medical imaging, and autonomous navigation, driving progress in both scientific understanding and practical technological capabilities.

Papers

September 26, 2022

Impact of Feedback Type on Explanatory Interactive Learning
Misgina Tsighe Hagos, Kathleen M. Curran, Brian Mac Namee
Global Impact Human Feedback Image Classification Task Image Annotation Visual Model

July 29, 2022

UAVM: Towards Unifying Audio and Visual Models
Yuan Gong, Alexander H. Liu, Andrew Rouditchenko, James Glass
Audio Visual Visual Model Modality Independent

June 23, 2022

MaskViT: Masked Visual Pre-Training for Video Prediction
Agrim Gupta, Stephen Tian, Yunzhi Zhang, Jiajun Wu, Roberto Martín-Martín, Li Fei-Fei
Video Prediction Window Attention Visual Model Visual Pre Training

April 30, 2022

SVTR: Scene Text Recognition with a Single Visual Model
Yongkun Du, Zhineng Chen, Caiyan Jia, Xiaoting Yin, Tianlun Zheng, Chenxia Li, Yuning Du, Yu-Gang Jiang
Scene Text Recognition Visual Model Image Tokenizer Scene Text Recognition Model

April 20, 2022

K-LITE: Learning Transferable Visual Models with External Knowledge
Sheng Shen, Chunyuan Li, Xiaowei Hu, Jianwei Yang, Yujia Xie, Pengchuan Zhang, Zhe Gan, Lijuan Wang, Lu Yuan, Ce Liu, Kurt Keutzer, Trevor Darrell, Anna Rohrbach, Jianfeng Gao
Image Representation Visual Concept External Knowledge Language Supervision Visual Model Transferable Visual

March 3, 2022

A study on the distribution of social biases in self-supervised learning visual models
Kirill Sirotkin, Pablo Carballeira, Marcos Escudero-Viñolo
Self Supervised Learning Study Feature Supervised Learning Social Bias ImageNet Dataset Product Distribution Visual Model Systematic Bias