Vision Language Task

Vision-language tasks aim to bridge the gap between visual and textual information, enabling machines to understand and generate descriptions, answer questions, and perform complex reasoning based on both image and text data. Current research focuses on improving model efficiency and robustness, particularly through innovative pre-training strategies, parameter-efficient fine-tuning methods, and the development of more interpretable architectures like transformers and multimodal large language models (MLLMs). These advancements are significant for applications in assistive technologies, improving the accessibility and usability of AI systems across various domains, and furthering our understanding of multimodal learning.

Papers

August 19, 2023

Tackling Vision Language Tasks Through Learning Inner Monologues
Diji Yang, Kezhen Chen, Jinmeng Rao, Xiaoyuan Guo, Yawen Zhang, Jie Yang, Yi Zhang
Language Model Vision Language Model Vision Language Vision Language Task Visual Language Task

August 17, 2023

Uni-NLX: Unifying Textual Explanations for Vision and Vision-Language Tasks
Fawaz Sammani, Nikos Deligiannis
Visual Question Answering Vision Paper Vision Language Task Natural Language Explanation Textual Explanation NLI Datasets Higher NLE Quality

July 28, 2023

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Xi Chen, Krzysztof Choromanski, Tianli Ding, Danny Driess, Avinava Dubey, Chelsea Finn, Pete Florence, Chuyuan Fu, Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Kehang Han, Karol Hausman, Alexander Herzog, Jasmine Hsu, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang, Isabel Leal, Lisa Lee, Tsang-Wei Edward Lee, Sergey Levine, Yao Lu, Henryk Michalewski, Igor Mordatch, Karl Pertsch, Kanishka Rao, Krista Reymann, Michael Ryoo, Grecia Salazar, Pannag Sanketi, Pierre Sermanet, Jaspiar Singh, Anikait Singh, Radu Soricut, Huong Tran, Vincent Vanhoucke, Quan Vuong, Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Jialin Wu, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu, Brianna Zitkovich
Vision Language Model Vision Language Task Robot Control Vision Language Action Emergent Reasoning

July 15, 2023

SINC: Self-Supervised In-Context Learning for Vision-Language Tasks
Yi-Syuan Chen, Yun-Zhu Song, Cheng Yu Yeo, Bei Liu, Jianlong Fu, Hong-Han Shuai
Self Supervised Context Learning Vision Language Task Context Learning Ability Large Pre Trained Transformer

July 13, 2023

mBLIP: Efficient Bootstrapping of Multilingual Vision-LLMs
Gregor Geigle, Abhay Jain, Radu Timofte, Goran Glavaš
Vision Language Model Large Vision Language Model Vision Language Task Multilingual LLM Multilingual Vision

July 6, 2023

Vision Language Transformers: A Survey
Clayton Fields, Casey Kennington
Timely Survey Vision Language Model Vision Language Task Language Transformer

July 3, 2023

UniFine: A Unified and Fine-grained Approach for Zero-shot Vision-Language Understanding
Rui Sun, Zhecan Wang, Haoxuan You, Noel Codella, Kai-Wei Chang, Shih-Fu Chang
Zero Shot Fine Grained Contrastive Language Image Vision Language Task Unified Alignment Vision Language Understanding Image Text Matching Zero Shot Vision Language

June 29, 2023

Stop Pre-Training: Adapt Visual-Language Models to Unseen Languages
Yasmine Karoui, Rémi Lebret, Negar Foroutan, Karl Aberer
Vision Language Visual Language Model Vision Language Task Multilingual Pre Trained Language Model Unseen Language Stop or Go Decision Multilingual Vision

June 26, 2023

Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning
Fuxiao Liu, Kevin Lin, Linjie Li, Jianfeng Wang, Yaser Yacoob, Lijuan Wang
Instruction Tuning Vision Language Task Mitigating Hallucination Visual Instruction Tuning Visual Instruction Large Multi Modal Model Graph Based Robotic Instruction Decomposer

June 13, 2023

Safeguarding Data in Multimodal AI: A Differentially Private Approach to CLIP Training
Alyssa Huang, Peihan Liu, Ryumei Nakada, Linjun Zhang, Wanrong Zhang
Contrastive Language Image Vision Language Task Multimodal AI Private Text

June 2, 2023

MetaVL: Transferring In-Context Learning Ability From Language Models to Vision-Language Models
Masoud Monajatipoor, Liunian Harold Li, Mozhdeh Rouhsedaghat, Lin F. Yang, Kai-Wei Chang
Language Model Full Model Context Learning Pre Trained Vision Language Model Vision Language Task Critique Ability Different Context Context Learning Ability Context Learning Capability

May 24, 2023

May 23, 2023

Images in Language Space: Exploring the Suitability of Large Language Models for Vision & Language Tasks
Sherzod Hakimov, David Schlangen
Language Model Vision Paper Multimodal Model Vision Language Task Language Specific Language Task Language Space

May 9, 2023

WikiWeb2M: A Page-Level Multimodal Wikipedia Dataset
Andrea Burns, Krishna Srinivasan, Joshua Ainslie, Geoff Brown, Bryan A. Plummer, Kate Saenko, Jianmo Ni, Mandy Guo
Image Captioning Vision Language Task Image Caption Pair Web Task

April 27, 2023

Retrieval-based Knowledge Augmented Vision Language Pre-training
Jiahua Rao, Zifei Shan, Longpo Liu, Yao Zhou, Yuedong Yang
Vision Language Task Vision Language Understanding

April 6, 2023

Uncurated Image-Text Datasets: Shedding Light on Demographic Bias
Noa Garcia, Yusuke Hirota, Yankun Wu, Yuta Nakashima
Image Captioning Vision Language Task Captioning Datasets Demographic Bias Vision and Language Model Image Text Datasets

April 3, 2023

Benchmarking Faithfulness: Towards Accurate Natural Language Explanations in Vision-Language Tasks
Jakob Ambsdorf
Language Generation Vision Language Task Natural Language Explanation Explanation Faithfulness Higher NLE Quality

March 29, 2023

MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks
Weicheng Kuo, AJ Piergiovanni, Dahun Kim, Xiyang Luo, Ben Caine, Wei Li, Abhijit Ogale, Luowei Zhou, Andrew Dai, Zhifeng Chen, Claire Cui, Anelia Angelova
Vision Language Task Joint Learning Multimodal Task Contrastive Method Video Language Task

March 25, 2023

Task-Attentive Transformer Architecture for Continual Learning of Vision-and-Language Tasks Using Knowledge Distillation
Yuliang Cai, Jesse Thomason, Mohammad Rostami
Knowledge Distillation Continual LEArning Vision Language Task Large Scale Pretraining Transformer Based Continual Learning