Vision Encoders

Vision encoders are the core components of multimodal models, tasked with transforming images into numerical representations that can be understood by language models. Current research focuses on improving these encoders, exploring architectures like Vision Transformers (ViTs) and incorporating techniques such as knowledge distillation and multimodal contrastive learning to enhance performance on various tasks, including image captioning, visual question answering, and object detection. This research is significant because advancements in vision encoders directly impact the capabilities of larger vision-language models, leading to improvements in applications ranging from autonomous driving to medical image analysis.

Papers

March 14, 2023

Manipulate by Seeing: Creating Manipulation Controllers from Pre-Trained Representations
Jianren Wang, Sudeep Dasari, Mohan Kumar Srirama, Shubham Tulsiani, Abhinav Gupta
Visual Representation Visual Representation Learning Pre Trained Representation Vision Encoders Robot Demonstration Generic Representation

November 14, 2022

EVA: Exploring the Limits of Masked Visual Representation Learning at Scale
Yuxin Fang, Wen Wang, Binhui Xie, Quan Sun, Ledell Wu, Xinggang Wang, Tiejun Huang, Xinlong Wang, Yue Cao
Semantic Segmentation Visual Analogue Scale Visual Representation Continuum Limit Vision Encoders Masked Supervised Learning Foundational Vision Model Eva Clip

October 12, 2022

One does not fit all! On the Complementarity of Vision Encoders for Vision and Language Tasks
Gregor Geigle, Chen Cecilia Liu, Jonas Pfeiffer, Iryna Gurevych
Vision Paper Multimodal Model Encoder Side Vision Encoders Language Task Strict Complementarity

July 15, 2022

Multimodal Open-Vocabulary Video Classification via Pre-Trained Vision and Language Models
Rui Qian, Yeqing Li, Zheng Xu, Ming-Hsuan Yang, Serge Belongie, Yin Cui
Language Model Pre Trained Optical Flow Open Vocabulary Video Classification Vision Encoders Zero Shot Video

February 7, 2022

Corrupted Image Modeling for Self-Supervised Visual Pre-Training
Yuxin Fang, Li Dong, Hangbo Bao, Xinggang Wang, Furu Wei
Vision Encoders Image Noise Visual Pre Training

December 15, 2021

Gaze Estimation with Eye Region Segmentation and Self-Supervised Multistream Learning
Zunayed Mahmud, Paul Hungler, Ali Etemad
Gaze Estimation Eye View Vision Encoders Multistream Classification

December 4, 2021

LAVT: Language-Aware Vision Transformer for Referring Image Segmentation
Zhao Yang, Jiaqi Wang, Yansong Tang, Kai Chen, Hengshuang Zhao, Philip H. S. Torr
Cross Modal Alignment Modal Feature Vision Encoders Referring Image Segmentation Vision Language Transformer

Vision Encoders

Papers

Manipulate by Seeing: Creating Manipulation Controllers from Pre-Trained Representations

EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

One does not fit all! On the Complementarity of Vision Encoders for Vision and Language Tasks

Multimodal Open-Vocabulary Video Classification via Pre-Trained Vision and Language Models

Corrupted Image Modeling for Self-Supervised Visual Pre-Training

Gaze Estimation with Eye Region Segmentation and Self-Supervised Multistream Learning

LAVT: Language-Aware Vision Transformer for Referring Image Segmentation