Vision Language Task

Vision-language tasks aim to bridge the gap between visual and textual information, enabling machines to understand and generate descriptions, answer questions, and perform complex reasoning based on both image and text data. Current research focuses on improving model efficiency and robustness, particularly through innovative pre-training strategies, parameter-efficient fine-tuning methods, and the development of more interpretable architectures like transformers and multimodal large language models (MLLMs). These advancements are significant for applications in assistive technologies, improving the accessibility and usability of AI systems across various domains, and furthering our understanding of multimodal learning.

Papers

November 15, 2023

The Role of Chain-of-Thought in Complex Vision-Language Reasoning Task
Yifan Wu, Pengchuan Zhang, Wenhan Xiong, Barlas Oguz, James C. Gee, Yixin Nie
Vision Language Integral Role Chain of Thought Vision Language Task Vision Language Reasoning Reasoning Paradigm

November 12, 2023

InfMLLM: A Unified Framework for Visual-Language Tasks
Qiang Zhou, Zhibin Wang, Wei Chu, Yinghui Xu, Hao Li, Yuan Qi
Large Language Model Multimodal Large Language Model Unified Framework Vision Language Task LLM Fine Tuning Visual Language Task

November 11, 2023

Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models
Zhang Li, Biao Yang, Qiang Liu, Zhiyin Ma, Shuo Zhang, Jingxu Yang, Yabo Sun, Yuliang Liu, Xiang Bai
Pre Trained Large Multimodal Model Scene Understanding Vision Language Task Good Thing Large Multi Modal Model Textual Label Image Resolution Object Scene

November 10, 2023

November 8, 2023

GENOME: GenerativE Neuro-symbOlic visual reasoning by growing and reusing ModulEs
Zhenfang Chen, Rui Sun, Wenjun Liu, Yining Hong, Chuang Gan
Generative Question Neuro Symbolic Visual Reasoning Vision Language Task Dynamic ModulE Microbial Genome

November 6, 2023

CoVLM: Composing Visual Entities and Relationships in Large Language Models Via Communicative Decoding
Junyan Li, Delin Chen, Yining Hong, Zhenfang Chen, Peihao Chen, Yikang Shen, Chuang Gan
Vision Language Task Human Relationship Language Representation Decoder Only Large Language Model Visual Entity

November 3, 2023

Grounded Intuition of GPT-Vision's Abilities with Scientific Images
Alyssa Hwang, Andrew Head, Chris Callison-Burch
Natural Language Processing Vision Language Task Critique Ability Human Intuition GPT 4 Vision Scientific Image Qualitative Evaluation

November 2, 2023

GPT-4V(ision) as a Generalist Evaluator for Vision-Language Tasks
Xinlu Zhang, Yujie Lu, Weizhi Wang, An Yan, Jun Yan, Lianke Qin, Heng Wang, Xifeng Yan, William Yang Wang, Linda Ruth Petzold
Human Evaluation Vision Language Task Visual Quality

October 23, 2023

LXMERT Model Compression for Visual Question Answering
Maryam Hashemi, Ghazaleh Mahmoudi, Sara Kodeiri, Hadi Sheikhi, Sauleh Eetemadi
Visual Question Answering Vision Language Task Computer Vision Model Cross Modal Representation Text Image Pair

October 14, 2023

MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning
Jun Chen, Deyao Zhu, Xiaoqian Shen, Xiang Li, Zechun Liu, Pengchuan Zhang, Raghuraman Krishnamoorthi, Vikas Chandra, Yunyang Xiong, Mohamed Elhoseiny
Large Language Model Vision Language Model Visual Question Answering Vision Language Task Unified Interface

October 9, 2023

Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models
Archiki Prasad, Elias Stengel-Eskin, Mohit Bansal
Zero Shot Vision Language Model Large Vision Language Model Yes No Question Visual Grounding Vision Language Task

October 7, 2023

VLATTACK: Multimodal Adversarial Attacks on Vision-Language Tasks via Pre-trained Models
Ziyi Yin, Muchao Ye, Tianrong Zhang, Tianyu Du, Jinguo Zhu, Han Liu, Jinghui Chen, Ting Wang, Fenglong Ma
Adversarial Attack Adversarial Robustness Pre Trained Model Vision Language Image Text Pair Adversarial Sample Vision Language Task Modal Attack

October 1, 2023

September 14, 2023

MMICL: Empowering Vision-language Model with Multi-Modal In-Context Learning
Haozhe Zhao, Zefan Cai, Shuzheng Si, Xiaojian Ma, Kaikai An, Liang Chen, Zixuan Liu, Sheng Wang, Wenjuan Han, Baobao Chang
Vision Language Model Vision Language Task Multimodal in Context Learning

September 7, 2023

Evaluation and Enhancement of Semantic Grounding in Large Vision-Language Models
Jiaying Lu, Jinmeng Rao, Kezhen Chen, Xiaoyuan Guo, Yawen Zhang, Baochen Sun, Carl Yang, Jie Yang
Global Evaluation Large Vision Language Model Feature Enhancement Vision Language Task Fine Grained Semantic Semantic Grounding

September 1, 2023

Towards Addressing the Misalignment of Object Proposal Evaluation for Vision-Language Tasks via Semantic Grounding
Joshua Feinglass, Yezhou Yang
Human Annotation Vision Language Task Object Proposal Segment Misalignment Semantic Grounding

August 31, 2023

ViLTA: Enhancing Vision-Language Pre-training through Textual Augmentation
Weihan Wang, Zhen Yang, Bin Xu, Juanzi Li, Yankui Sun
Fine Grained Vision Language Image Text Pair Vision Language Task Text Augmentation Masked Language Modeling

August 24, 2023

Parameter-Efficient Transfer Learning for Remote Sensing Image-Text Retrieval
Yuan Yuan, Yang Zhan, Zhitong Xiong
Vision Language Remote Sensing App to App Retrieval Vision Language Task Parameter Efficient Transfer Learning Text to Image Retrieval Visual Linguistic

Vision Language Task

Papers

The Role of Chain-of-Thought in Complex Vision-Language Reasoning Task

InfMLLM: A Unified Framework for Visual-Language Tasks

Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models

Analyzing Modular Approaches for Visual Question Decomposition

Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks

GENOME: GenerativE Neuro-symbOlic visual reasoning by growing and reusing ModulEs

CoVLM: Composing Visual Entities and Relationships in Large Language Models Via Communicative Decoding

Grounded Intuition of GPT-Vision's Abilities with Scientific Images

GPT-4V(ision) as a Generalist Evaluator for Vision-Language Tasks

LXMERT Model Compression for Visual Question Answering

MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning

Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models

VLATTACK: Multimodal Adversarial Attacks on Vision-Language Tasks via Pre-trained Models

Analyzing and Mitigating Object Hallucination in Large Vision-Language Models

Reformulating Vision-Language Foundation Models and Datasets Towards Universal Multimodal Assistants

MMICL: Empowering Vision-language Model with Multi-Modal In-Context Learning

Evaluation and Enhancement of Semantic Grounding in Large Vision-Language Models

Towards Addressing the Misalignment of Object Proposal Evaluation for Vision-Language Tasks via Semantic Grounding

ViLTA: Enhancing Vision-Language Pre-training through Textual Augmentation

Parameter-Efficient Transfer Learning for Remote Sensing Image-Text Retrieval