Vision Language Task

Vision-language tasks aim to bridge the gap between visual and textual information, enabling machines to understand and generate descriptions, answer questions, and perform complex reasoning based on both image and text data. Current research focuses on improving model efficiency and robustness, particularly through innovative pre-training strategies, parameter-efficient fine-tuning methods, and the development of more interpretable architectures like transformers and multimodal large language models (MLLMs). These advancements are significant for applications in assistive technologies, improving the accessibility and usability of AI systems across various domains, and furthering our understanding of multimodal learning.

Papers

March 20, 2023

eP-ALM: Efficient Perceptual Augmentation of Language Models
Mustafa Shukor, Corentin Dancette, Matthieu Cord
Language Model Vision Language Task Unimodal Model

March 17, 2023

CHAMPAGNE: Learning Real-world Conversation from Large-Scale Web Videos
Seungju Han, Jack Hessel, Nouha Dziri, Yejin Choi, Youngjae Yu
Language Model Vision Language Task Human Conversation Neural Conversational

March 6, 2023

March 4, 2023

FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion Tasks
Xiao Han, Xiatian Zhu, Licheng Yu, Li Zhang, Yi-Zhe Song, Tao Xiang
Vision Language Model Vision Language Task Task Specific Model Single Task

November 22, 2022

X$^2$-VLM: All-In-One Pre-trained Model For Vision-Language Tasks
Yan Zeng, Xinsong Zhang, Hang Li, Jiawei Wang, Jipeng Zhang, Wangchunshu Zhou
Fine Grained Pre Trained Model Vision Language Task Vision Language Alignment

November 21, 2022

Multitask Vision-Language Prompt Tuning
Sheng Shen, Shijia Yang, Tianjun Zhang, Bohan Zhai, Joseph E. Gonzalez, Kurt Keutzer, Trevor Darrell
Vision Language Task Visual Prompt Tuning Vision Language Prompt

November 17, 2022

Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and Vision-Language Tasks
Hao Li, Jinguo Zhu, Xiaohu Jiang, Xizhou Zhu, Hongsheng Li, Chun Yuan, Xiaohua Wang, Yu Qiao, Xiaogang Wang, Wenhai Wang, Jifeng Dai
Vision Language Task Task Specific Task Adaptation Perception Model Generalist Model Uni Perceiver

October 14, 2022

EfficientVLM: Fast and Accurate Vision-Language Models via Knowledge Distillation and Modal-adaptive Pruning
Tiannan Wang, Wangchunshu Zhou, Yan Zeng, Xinsong Zhang
Knowledge Distillation Vision Language Model Large Vision Language Model Vision Language Task

September 30, 2022

Task Formulation Matters When Learning Continually: A Case Study in Visual Question Answering
Mavina Nikandrou, Lu Yu, Alessandro Suglia, Ioannis Konstas, Verena Rieser
Continual LEArning Case Study Visual Question Answering Visual Representation Vision Language Task Federat\textbf{T}ed Cl\textbf{A}ss Continual Lea\textbf{R}nin\textbf{G Continual Learning Algorithm Task Formulation

September 24, 2022

Deep Neural Networks for Visual Reasoning
Thao Minh Le
Deep Neural Network Language Understanding Visual Reasoning Vision Language Task Visual Perception Multimodal Reasoning

September 15, 2022

LAVIS: A Library for Language-Vision Intelligence
Dongxu Li, Junnan Li, Hung Le, Guangsen Wang, Silvio Savarese, Steven C. H. Hoi
Vision Language Vision Language Task Easy to Use Library Video Language Model Visual Linguistic Open Source Deep Learning

August 23, 2022

Learning More May Not Be Better: Knowledge Transferability in Vision and Language Tasks
Tianwei Chen, Noa Garcia, Mayu Otani, Chenhui Chu, Yuta Nakashima, Hajime Nagahara
LeArning Abstract Vision Paper Knowledge Transfer Vision Language Task Language Task Multi Modal Task Vision and Language Model

August 22, 2022

Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks
Wenhui Wang, Hangbo Bao, Li Dong, Johan Bjorck, Zhiliang Peng, Qiang Liu, Kriti Aggarwal, Owais Khan Mohammed, Saksham Singhal, Subhojit Som, Furu Wei
Vision Paper Vision Language Task Cross Modal Retrieval Modality Specific Multimodal Pre Multimodal Foundation Model Different Language

August 17, 2022

Understanding Attention for Vision-and-Language Tasks
Feiqi Cao, Soyeon Caren Han, Siqu Long, Changwei Xu, Josiah Poon
Human Attention Vision Language Task Attention Alignment

August 4, 2022

Fine-Grained Semantically Aligned Vision-Language Pre-Training
Juncheng Li, Xin He, Longhui Wei, Long Qian, Linchao Zhu, Lingxi Xie, Yueting Zhuang, Qi Tian, Siliang Tang
Fine Grained Vision Language Pre Trained Vision Language Model Vision Language Task Cross Modal Alignment

June 18, 2022

CLiMB: A Continual Learning Benchmark for Vision-and-Language Tasks
Tejas Srinivasan, Ting-Yun Chang, Leticia Leonor Pinto Alva, Georgios Chochlakis, Mohammad Rostami, Jesse Thomason
Multi Task Vision Language Task Multimodal Task Task Adaptation Continual Learning Benchmark Speed Climbing Training

June 17, 2022

June 7, 2022

cViL: Cross-Lingual Training of Vision-Language Models using Knowledge Distillation
Kshitij Gupta, Devansh Gautam, Radhika Mamidi
Knowledge Distillation Vision Language Model Visual Question Answering Cross Lingual Vision Language Task Monolingual Model Vision and Language Model Sequence Classifier