Vision Language Task

Vision-language tasks aim to bridge the gap between visual and textual information, enabling machines to understand and generate descriptions, answer questions, and perform complex reasoning based on both image and text data. Current research focuses on improving model efficiency and robustness, particularly through innovative pre-training strategies, parameter-efficient fine-tuning methods, and the development of more interpretable architectures like transformers and multimodal large language models (MLLMs). These advancements are significant for applications in assistive technologies, improving the accessibility and usability of AI systems across various domains, and furthering our understanding of multimodal learning.

Papers

May 27, 2022

GIT: A Generative Image-to-text Transformer for Vision and Language
Jianfeng Wang, Zhengyuan Yang, Xiaowei Hu, Linjie Li, Kevin Lin, Zhe Gan, Zicheng Liu, Ce Liu, Lijuan Wang
Generative Model Transformer Based Human Language Vision Paper Generative Question Vision Language Task GIT Net Single Language

May 17, 2022

Gender and Racial Bias in Visual Question Answering Datasets
Yusuke Hirota, Yuta Nakashima, Noa Garcia
Visual Question Answering Gender Bias Vision Language Task Gender Inclusive Text Racial Bias Language Bias

April 22, 2022

Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for Vision-Language Tasks
Zhecan Wang, Noel Codella, Yen-Chun Chen, Luowei Zhou, Xiyang Dai, Bin Xiao, Jianwei Yang, Haoxuan You, Kai-Wei Chang, Shih-fu Chang, Lu Yuan
Vision Language Cross Modal Vision Language Task Unimodal Encoders Multimodal Distillation

April 16, 2022

Towards Lightweight Transformer via Group-wise Transformation for Vision-and-Language Tasks
Gen Luo, Yiyi Zhou, Xiaoshuai Sun, Yan Wang, Liujuan Cao, Yongjian Wu, Feiyue Huang, Rongrong Ji
Swin Transformer Vision Language Task Transformer Based Network Image Transformer Lightweight Transformer Transformer XL

April 12, 2022

X-DETR: A Versatile Architecture for Instance-wise Vision-Language Tasks
Zhaowei Cai, Gukyeong Kwon, Avinash Ravichandran, Erhan Bas, Zhuowen Tu, Rahul Bhotika, Stefano Soatto
Vision Language Object Detector Vision Language Task Vision Language Alignment

April 2, 2022

Moment-based Adversarial Training for Embodied Language Comprehension
Shintaro Ishikawa, Komei Sugiura
Adversarial Training Robot Person Vision Language Task State Representation

March 14, 2022

CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual Entailment
Haoyu Song, Li Dong, Wei-Nan Zhang, Ting Liu, Furu Wei
Empirical Study Vision Language Task CLIP Model 3d Vqa Visual Entailment Shot Learner Shot Vision Language

March 9, 2022

NLX-GPT: A Model for Natural Language Explanations in Vision and Vision-Language Tasks
Fawaz Sammani, Tanmoy Mukherjee, Nikos Deligiannis
Language Model Vision Language Model Full Model Vision Paper Vision Language Task Natural Language Explanation Explanation Model

March 8, 2022

HyperPELT: Unified Parameter-Efficient Language Model Tuning for Both Language and Vision-and-Language Tasks
Zhengkun Zhang, Wenya Guo, Xiaojun Meng, Yasheng Wang, Yadao Wang, Xin Jiang, Qun Liu, Zhenglu Yang
Multi Task Learning Human Language Vision Language Task Parameter Efficient Transfer Learning Efficient Transfer Learning Learned Embeddings Hyper Representation

March 6, 2022

Modeling Coreference Relations in Visual Dialog
Mingxiao Li, Marie-Francine Moens
Vision Language Visual Question Answering Vision Language Task Coreference Resolution Visual Dialog Human Dialogue

February 14, 2022

I-Tuning: Tuning Frozen Language Models with Image for Lightweight Image Captioning
Ziyang Luo, Zhipeng Hu, Yadong Xi, Rongsheng Zhang, Jing Ma
Image Captioning Vision Language Task Cross Attention Module Frozen Language Model Captioning Benchmark P Tuning

January 28, 2022

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
Junnan Li, Dongxu Li, Caiming Xiong, Steven Hoi
Faithful Generation Vision Language Task Unified Alignment Vision Language Understanding Synthetic Caption Video Language Task Bit Level Information Preserving

January 15, 2022

CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks
Zhecan Wang, Noel Codella, Yen-Chun Chen, Luowei Zhou, Jianwei Yang, Xiyang Dai, Bin Xiao, Haoxuan You, Shih-Fu Chang, Lu Yuan
Visual Question Answering Single CLIP Contrastive Language Image Mutual Distillation Vision Language Task CLIP TD Outperforms

December 13, 2021

VL-Adapter: Parameter-Efficient Transfer Learning for Vision-and-Language Tasks
Yi-Lin Sung, Jaemin Cho, Mohit Bansal
Language Model Vision Language Task Video Text Parameter Efficient Transfer Learning Video Text Task SAM2 Adapter Parameter Efficient Adapter Image to Text Task

November 29, 2021

Searching the Search Space of Vision Transformer
Minghao Chen, Kan Wu, Bolin Ni, Houwen Peng, Bei Liu, Jianlong Fu, Hongyang Chao, Haibin Ling
Vision Transformer Neural Architecture Search Supervised ImageNet Vision Language Task Search Space

November 22, 2021

RedCaps: web-curated image-text data created by the people, for the people
Karan Desai, Gaurav Kaul, Zubin Aysola, Justin Johnson
Visual Representation Image Text Pair Person Name Vision Language Task Distinctive Caption

November 3, 2021

VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts
Hangbo Bao, Wenhui Wang, Li Dong, Qiang Liu, Owais Khan Mohammed, Kriti Aggarwal, Subhojit Som, Furu Wei
Vision Language Vision Language Task Dual Encoder Fusion Encoder