the latest in aiBeta

Vision Language Downstream Task

Vision-language downstream tasks focus on training models to effectively bridge the gap between visual and textual information, enabling applications like image captioning and visual question answering. Current research emphasizes improving the detail and efficiency of these models, exploring techniques like parameter-efficient fine-tuning, mixture-of-experts architectures, and contrastive learning with various data augmentation strategies to enhance performance on diverse downstream tasks. These advancements are significant because they lead to more robust and efficient multimodal models with broader applicability in areas such as computer vision, natural language processing, and human-computer interaction.

15papers

Papers

January 9, 2025

Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model
Gregor Geigle, Florian Schneider, Carolin Holtermann, Chris Biemann, Radu Timofte, Anne Lauscher, Goran Glavaš
Multilingual Ability Large Vision Language Multilingual Training Data Large Vision Language Model Full Model Vision Language Downstream Task Multilingual Vision Driver State

December 5, 2024

Assessing and Learning Alignment of Unimodal Vision and Language Models
Le Zhang, Qian Yang, Aishwarya Agrawal
Alignment Training Multimodal Alignment Direct Assessment Language Model Unimodal Classifier Vision Language Alignment Vision Language Downstream Task Pre Trained Unimodal

August 7, 2024

How Well Can Vision Language Models See Image Details?
Chenhui Gou, Abdulwahab Felemban, Faizan Farooq Khan, Deyao Zhu, Jianfei Cai, Hamid Rezatofighi, Mohamed Elhoseiny
Vision Language Understanding Per Pixel Prediction Vision Language Model Vision Language Downstream Task Image Specific Information

March 13, 2024

An Empirical Study of Parameter Efficient Fine-tuning on Vision-Language Pre-train Model
Yuxin Tian, Mouxing Yang, Yunfan Li, Dayiheng Liu, Xingzhang Ren, Xi Peng, Jiancheng Lv
Downstream Fine Tuning Performance Gap Vision Language Downstream Task Parameter Efficient Fine Tuning Empirical Study Vision Language Fine Tuning

December 19, 2023

Mixture of Cluster-conditional LoRA Experts for Vision-language Instruction Tuning
Yunhao Gou, Zhili Liu, Kai Chen, Lanqing Hong, Hang Xu, Aoxue Li, Dit-Yan Yeung, James T. Kwok, Yu Zhang
Mixture Component Large Vision Language Model Zero Shot Vision Language Instruction Tuning Instruction Subset Instruction Following Vision Language Downstream Task

November 13, 2023

ViLMA: A Zero-Shot Benchmark for Linguistic and Temporal Grounding in Video-Language Models
Ilker Kesen, Andrea Pedrotti, Mustafa Dogan, Michele Cafagna, Emre Can Acikgoz, Letitia Parcalabescu, Iacer Calixto, Anette Frank, Albert Gatt+2
New Benchmark Video Language Model Vision Language Downstream Task Temporal Grounding Vision Language Model

August 23, 2023

EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoE
Junyi Chen, Longteng Guo, Jia Sun, Shuai Shao, Zehuan Yuan, Liang Lin, Dongyu Zhang
Vision Language Foundation Model Vision Language Multimodal Transformer Vision Language Downstream Task Masked Prediction

July 26, 2023

Set-level Guidance Attack: Boosting Adversarial Transferability of Vision-Language Pre-training Models
Dong Lu, Zhiqiang Wang, Teng Wang, Weili Guan, Hongchang Gao, Feng Zheng
Multimodal Guidance Adversarial Example Full Model Vision Language Downstream Task

April 10, 2023

CAVL: Learning Contrastive and Adaptive Representations of Vision and Language
Shentong Mo, Jingfei Xia, Ihor Markevych
Human Language Adaptive Representation Language Representation Vision Language Downstream Task Vision Paper

April 3, 2023

Multi-Modal Representation Learning with Text-Driven Soft Masks
Jaeyoo Park, Bohyung Han
Vision Language Downstream Task Text Contrastive Learning Soft Mask Multi Modal Representation Learning Conditional Attention Multimodal Data Augmentation

March 6, 2023

HiCLIP: Contrastive Language-Image Pretraining with Hierarchy-aware Attention
Shijie Geng, Jianbo Yuan, Yu Tian, Yuxiao Chen, Yongfeng Zhang
Vision Language Downstream Task Hierarchy Aware Attention Contrastive Vision Language Contrastive Language Image CLIP Level Vision Language Model

October 17, 2022

Contrastive Language-Image Pre-Training with Knowledge Graphs
Xuran Pan, Tianzhu Ye, Dongchen Han, Shiji Song, Gao Huang
Knowledge Graph Contrastive Language Image Knowledge Anchor Pre Training Vision Language Downstream Task Multi Modal Representation

October 9, 2022

VoLTA: Vision-Language Transformer with Weakly-Supervised Local-Feature Alignment
Shraman Pramanick, Li Jing, Sayan Nag, Jiachen Zhu, Hardik Shah, Yann LeCun, Rama Chellappa
Feature Alignment Bolt Rotation Fine Grained Optimal Transport Vision Language Downstream Task Vision Language Transformer

August 19, 2022

VLMAE: Vision-Language Masked Autoencoder
Sunan He, Taian Guo, Tao Dai, Ruizhi Qiao, Chen Wu, Xiujun Shu, Bo Ren
Vision Language Vision Language Downstream Task Visual Question Answering Autoencoder Framework Masked Autoencoder Masked AutoEncoder

June 16, 2022

MixGen: A New Multi-Modal Data Augmentation
Xiaoshuai Hao, Yi Zhu, Srikar Appalaraju, Aston Zhang, Wanqian Zhang, Bo Li, Mu Li
Multimodal Data Augmentation Vision Language Vision Language Downstream Task Image Text Pair Data Augmentation

November 16, 2021

Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts
Yan Zeng, Xinsong Zhang, Hang Li
Multi Granularity Fine Grained Vision Language Text Based Vision Language Downstream Task Visual Concept

November 9, 2021

FILIP: Fine-grained Interactive Language-Image Pre-Training
Lewei Yao, Runhui Huang, Lu Hou, Guansong Lu, Minzhe Niu, Hang Xu, Xiaodan Liang, Zhenguo Li, Xin Jiang, Chunjing Xu
Cross Modal Interaction Image Text Pair Pre Trained Vision Language Model Vision Language Downstream Task