Vision Language Task

Vision-language tasks aim to bridge the gap between visual and textual information, enabling machines to understand and generate descriptions, answer questions, and perform complex reasoning based on both image and text data. Current research focuses on improving model efficiency and robustness, particularly through innovative pre-training strategies, parameter-efficient fine-tuning methods, and the development of more interpretable architectures like transformers and multimodal large language models (MLLMs). These advancements are significant for applications in assistive technologies, improving the accessibility and usability of AI systems across various domains, and furthering our understanding of multimodal learning.

Papers

March 20, 2024

Improved Baselines for Data-efficient Perceptual Augmentation of LLMs
Théophane Vallaeys, Mustafa Shukor, Matthieu Cord, Jakob Verbeek
Large Language Model Language Model Visual Question Answering Vision Language Task Perceptual Concept

March 17, 2024

SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant
Guohao Sun, Can Qin, Jiamian Wang, Zeyuan Chen, Ran Xu, Zhiqiang Tao
Vision Language Model Vision Language Vision Language Task Visual Instruction Tuning Visual Instruction

March 12, 2024

A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing Objects in 3D Scenes
Ting Yu, Xiaojun Lin, Shuhui Wang, Weiguo Sheng, Qingming Huang, Jun Yu
Comprehensive Survey Arbitrary Object 3D Scene Vision Language Task Visual Captioning 3D Dense Captioning Dense Caption

March 7, 2024

How Far Are We from Intelligent Visual Deductive Reasoning?
Yizhe Zhang, He Bai, Ruixiang Zhang, Jiatao Gu, Shuangfei Zhai, Josh Susskind, Navdeep Jaitly
Vision Language Model Visual Reasoning Vision Language Task Deductive Reasoning Visual Intelligence

March 1, 2024

HALC: Object Hallucination Reduction via Adaptive Focal-Contrast Decoding
Zhaorun Chen, Zhuokai Zhao, Hongyin Luo, Huaxiu Yao, Bo Li, Jiawei Zhou
Fine Grained Large Vision Language Model Vision Language Task Mitigating Hallucination Multimodal Context Object Hallucination Contrast Adaptation

February 19, 2024

February 18, 2024

ALLaVA: Harnessing GPT4V-Synthesized Data for Lite Vision-Language Models
Guiming Hardy Chen, Shunian Chen, Ruifei Zhang, Junying Chen, Xiangbo Wu, Zhiyi Zhang, Zhihong Chen, Jianquan Li, Xiang Wan, Benyou Wang
Vision Language Model Large Vision Language Model GPT 4 Vision Language Task Vision Language Alignment LLaVA HD

February 16, 2024

Using Left and Right Brains Together: Towards Vision and Language Planning
Jun Cen, Chenfei Wu, Xiao Liu, Shengming Yin, Yixuan Pei, Jinglong Yang, Qifeng Chen, Nan Duan, Jianguo Zhang
Vision Paper Vision Task Vision Language Task Left Leaning Visual Planning Language Planning Large Multi Modality Model Vision Language Planning

February 13, 2024

Visual Question Answering Instruction: Unlocking Multimodal Large Language Model To Domain-Specific Visual Multitasks
Jusung Lee, Sungguk Cha, Younghyun Lee, Cheoljong Yang
Multimodal Large Language Model Vision Language Visual Question Answering Vision Language Task

February 8, 2024

SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models
Dongyang Liu, Renrui Zhang, Longtian Qiu, Siyuan Huang, Weifeng Lin, Shitian Zhao, Shijie Geng, Ziyi Lin, Peng Jin, Kaipeng Zhang, Wenqi Shao, Chao Xu, Conghui He, Junjun He, Hao Shao, Pan Lu, Hongsheng Li, Yu Qiao, Peng Gao
Raw Data Multimodal Large Language Model Multimodal Dataset Many Parameter Multi Modal Large Language Model Vision Language Task Single Parent Family

January 18, 2024

SkyEyeGPT: Unifying Remote Sensing Vision-Language Tasks via Instruction Tuning with Large Language Model
Yang Zhan, Zhitong Xiong, Yuan Yuan
Large Language Model Instruction Tuning Remote Sensing Multi Modal Large Language Model Vision Language Task Remote Sensing Vision Language

January 15, 2024

FiGCLIP: Fine-Grained CLIP Adaptation via Densely Annotated Videos
Darshan Singh S, Zeeshan Khan, Makarand Tapaswi
Contrastive Language Image Vision Language Task Generated Caption Fine Grained Visual Video Annotation Long Caption

December 28, 2023

TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones
Zhengqing Yuan, Zhaoxu Li, Weiran Huang, Yanfang Ye, Lichao Sun
Large Language Model Language Model Multimodal Large Language Model Vision Language Task Phi 3 Light Weighed Backbone

December 21, 2023

VCoder: Versatile Vision Encoders for Multimodal Large Language Models
Jitesh Jain, Jianwei Yang, Humphrey Shi
Multimodal Large Language Model Vision Language Task Visual Perception Perception Model Vision Encoders Object Perception

December 15, 2023

Lever LM: Configuring In-Context Sequence to Lever Large Vision Language Models
Xu Yang, Yingzhe Peng, Haoxuan Ma, Shuo Xu, Chi Zhang, Yucheng Han, Hanwang Zhang
Large Vision Language Model Vision Language Task Tiny Language Model

December 7, 2023

Adventures of Trustworthy Vision-Language Models: A Survey
Mayank Vatsa, Anubhooti Jain, Richa Singh
Timely Survey Vision Language Model Computer Vision Transformer Megatron Decepticons Vision Language Task Responsible AI Vision Language Transformer

December 5, 2023

Uni3DL: Unified Model for 3D and Language Understanding
Xiang Li, Jian Ding, Zhaoyang Chen, Mohamed Elhoseiny
Language Understanding 3D Content Vision Language Task Unified Model 3D Vision Language 3D Dense Captioning

November 27, 2023

ChartLlama: A Multimodal LLM for Chart Understanding and Generation
Yucheng Han, Chi Zhang, Xin Chen, Xu Yang, Zhibin Wang, Gang Yu, Bin Fu, Hanwang Zhang
Faithful Generation Multimodal LLM Multi Modal Large Language Model Vision Language Task Chart Comprehension Multi Modal Instruction Chart Data Extraction

November 20, 2023

Filling the Image Information Gap for VQA: Prompting Large Language Models to Proactively Ask Questions
Ziyue Wang, Chi Chen, Peng Li, Yang Liu
Yes No Question Vision Language Task 3d Vqa Visual Gap Ok Vqa