Image Encoder

Image encoders are fundamental components of many computer vision systems, aiming to transform images into meaningful numerical representations that capture essential visual information. Current research focuses on improving encoder efficiency, robustness across diverse datasets (including synthetic data), and mitigating biases. Prominent approaches utilize vision transformers, convolutional neural networks, and diffusion models, often integrated with other modules like adapters or retrieval branches to enhance performance for tasks such as image segmentation, object detection, and zero-shot learning. These advancements have significant implications for various applications, including image manipulation detection, medical image analysis, and improving the efficiency and fairness of large multimodal models.

Papers

February 29, 2024

Leveraging Representations from Intermediate Encoder-blocks for Synthetic Image Detection
Christos Koutlis, Symeon Papadopoulos
Synthetic Image Meaningful Representation Forgery Detection Image Encoder Synthetic Image Detection Low Level Vision

February 26, 2024

MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model
Chunyi Li, Guo Lu, Donghui Feng, Haoning Wu, Zicheng Zhang, Xiaohong Liu, Guangtao Zhai, Weisi Lin, Wenjun Zhang
Large Multimodal Model Image Compression Image Encoder Image Semantic

February 6, 2024

Conditional Tuning Network for Few-Shot Adaptation of Segmentation Anything Model
Aoran Xiao, Weihao Xuan, Heli Qi, Yun Xing, Ruijie Ren, Xiaoqin Zhang, Ling Shao, Shijian Lu
Segment Anything Model Adaptation Concern Segmentation Performance Image Encoder General Image Segmentation Conditional Network Mask Decoder

January 30, 2024

MouSi: Poly-Visual-Expert Vision-Language Models
Xiaoran Fan, Tao Ji, Changhao Jiang, Shuo Li, Senjie Jin, Sirui Song, Junke Wang, Boyang Hong, Lu Chen, Guodong Zheng, Ming Zhang, Caishuang Huang, Rui Zheng, Zhiheng Xi, Yuhao Zhou, Shihan Dou, Junjie Ye, Hang Yan, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Zuxuan Wu, Yu-Gang Jiang
Vision Language Model Large Vision Language Model Visual Encoder Image Encoder Visual Expert

January 26, 2024

SSR: SAM is a Strong Regularizer for domain adaptive semantic segmentation
Yanqi Ge, Ye Huang, Wen Li, Lixin Duan
Semantic Segmentation Pre Trained Supervised ImageNet Internet Service Domain Image Encoder Elev Vision Sam

January 13, 2024

NODI: Out-Of-Distribution Detection with Noise from Diffusion
Jingqiu Zhou, Aojun Zhou, Hongsheng Li
Distribution Detection Diffusion Explainer Industrial Disturbing Noise Distribution Data Image Encoder

October 13, 2023

PaLI-3 Vision Language Models: Smaller, Faster, Stronger
Xi Chen, Xiao Wang, Lucas Beyer, Alexander Kolesnikov, Jialin Wu, Paul Voigtlaender, Basil Mustafa, Sebastian Goodman, Ibrahim Alabdulmohsin, Piotr Padlewski, Daniel Salz, Xi Xiong, Daniel Vlasic, Filip Pavetic, Keran Rong, Tianli Yu, Daniel Keysers, Xiaohua Zhai, Radu Soricut
Vision Transformer Multimodal Benchmark Image Encoder Faster Pace Cross Lingual Cross Modal Retrieval

October 12, 2023

Leveraging Vision-Language Models for Improving Domain Generalization in Image Classification
Sravanti Addepalli, Ashish Ramayee Asokan, Lakshay Sharma, R. Venkatesh Babu
Vision Language Model Image Classification Vision Language Domain Generalization Image Text Pair Image Encoder

September 15, 2023

Biased Attention: Do Vision Transformers Amplify Gender Bias More than Convolutional Neural Networks?
Abhishek Mandal, Susan Leavy, Suzanne Little
Convolutional Neural Network Vision Transformer Computer Vision Gender Bias Contrastive Language Image Image Encoder Biased Behavior

May 7, 2023

Robust Image Ordinal Regression with Controllable Image Generation
Yi Cheng, Haochao Ying, Renjun Hu, Jinhong Wang, Wenhao Zheng, Xiao Zhang, Danny Chen, Jian Wu
Image Generation Underrepresented Group Image Encoder Ordinal Regression Ordinal Classification

November 25, 2022

CLIP-ReID: Exploiting Vision-Language Model for Image Re-Identification without Concrete Text Labels
Siyuan Li, Li Sun, Qingli Li
Vision Language Model Text Encoder Image Encoder Textual Label

November 24, 2022

On the Importance of Image Encoding in Automated Chest X-Ray Report Generation
Otabek Nazarov, Mohammad Yaqub, Karthik Nandakumar
Text Generation Chest X Ray Importance Aware Radiology Report Generation Medical Information Mart for Intensive Image Encoder Image Coding

November 20, 2022

Structure-Encoding Auxiliary Tasks for Improved Visual Representation in Vision-and-Language Navigation
Chia-Wen Kuo, Chih-Yao Ma, Judy Hoffman, Zsolt Kira
Pre Trained Visual Representation Vision and Language Navigation Navigation Task Auxiliary Task Image Encoder Auxiliary Learning

June 15, 2022

Disentangling visual and written concepts in CLIP
Joanna Materzynska, Antonio Torralba, David Bau
Single CLIP Natural Image Concept Identification Natural Sounding Speech Image Encoder Visual Processing

May 13, 2022

PoisonedEncoder: Poisoning the Unlabeled Pre-training Data in Contrastive Learning
Hongbin Liu, Jinyuan Jia, Neil Zhenqiang Gong
Contrastive Learning Poisoning Attack Image Encoder

April 23, 2022

Learning Shape Priors by Pairwise Comparison for Robust Semantic Segmentation
Cong Xie, Hualuo Liu, Shilei Cao, Dong Wei, Kai Ma, Liansheng Wang, Yefeng Zheng
Semantic Segmentation Encoder Decoder Text Encoder Pairwise Comparison Shape Prior Image Encoder Robust Semantic Segmentation

April 17, 2022

Learning Compositional Representations for Effective Low-Shot Generalization
Samarth Mishra, Pengkai Zhu, Venkatesh Saligrama
Strong Generalization Zero Shot Learning Image Encoder Compositional Representation

February 22, 2022

Retrieval Augmented Classification for Long-Tail Visual Recognition
Alexander Long, Wei Yin, Thalaiyasingam Ajanthan, Vu Nguyen, Pulak Purkait, Ravi Garg, Alan Blair, Chunhua Shen, Anton van den Hengel
Retrieval Augmented Image Encoder Classification Pipeline

January 31, 2022

Adversarial Masking for Self-Supervised Learning
Yuge Shi, N. Siddharth, Philip H. S. Torr, Adam R. Kosiorek
Self Supervised Learning Self Supervised Learning Method Image Encoder Adversarial Objective Adversarial Mask Convolutional Backbone

January 19, 2022

Can't Steal? Cont-Steal! Contrastive Stealing Attacks Against Image Encoders
Zeyang Sha, Xinlei He, Ning Yu, Michael Backes, Yang Zhang
Contrastive Learning Image Encoder Self Supervised Representation Unsupervised Representation