Large Vision Language Model

May 23, 2024

Calibrated Self-Rewarding Vision Language Models
Yiyang Zhou, Zhiyuan Fan, Dongjie Cheng, Sihan Yang, Zhaorun Chen, Chenhang Cui, Xiyao Wang, Yun Li, Linjun Zhang, Huaxiu Yao
Language Model Vision Language Model Large Vision Language Model Visual Representation Vision Model
UDKAG: Augmenting Large Vision-Language Models with Up-to-Date Knowledge
Chuanhao Li, Zhen Li, Chenchen Jing, Shuo Liu, Wenqi Shao, Yuwei Wu, Ping Luo, Yu Qiao, Kaipeng Zhang
Large Vision Language Model Visual Question Answering Knowledge Enhancement
Towards Transferable Attacks Against Vision-LLMs in Autonomous Driving with Typography
Nhat Chung, Sensen Gao, Tuan-Anh Vu, Jie Zhang, Aishan Liu, Yun Lin, Jin Song Dong, Qing Guo
Adversarial Attack Autonomous Driving Large Vision Language Model Transferable Attack Visual Language Reasoning Typographic Attack
Unveiling the Tapestry of Consistency in Large Vision-Language Models
Yuan Zhang, Fei Xiao, Tao Huang, Chun-Kai Fan, Hongyuan Dong, Jiawen Li, Jiacong Wang, Kuan Cheng, Shanghang Zhang, Haoyuan Guo
Large Vision Language Model Strong Consistency Closed Source Model Answer Correctness Multi Modal Benchmark Discriminative Response

May 22, 2024

Refining Skewed Perceptions in Vision-Language Models through Visual Representations
Haocheng Dai, Sarang Joshi
Vision Language Model Supervised ImageNet Large Vision Language Model Visual Representation CLIP Embeddings Biased Training

May 21, 2024

C3L: Content Correlated Vision-Language Instruction Tuning Data Generation via Contrastive Learning
Ji Ma, Wei Suo, Peng Wang, Yanning Zhang
Contrastive Learning Large Vision Language Model Vision Language Instruction Tuning

May 20, 2024

Rethinking Overlooked Aspects in Vision-Language Models
Yuan Liu, Le Tian, Xiao Zhou, Jie Zhou
Vision Language Model Fine Tuning Large Vision Language Model Instruction Tuning Pre Training Overlooked Aspect

May 18, 2024

Enhancing Fine-Grained Image Classifications via Cascaded Vision Language Models
Canshi Wei
Fine Grained Vision Language Model Large Vision Language Model Fine Grained Image Classification

May 16, 2024

Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning
Yuexiang Zhai, Hao Bai, Zipeng Lin, Jiayi Pan, Shengbang Tong, Yifei Zhou, Alane Suhr, Saining Xie, Yann LeCun, Yi Ma, Sergey Levine
Reinforcement Learning Large Vision Language Model Decision Making Agent Task Specific Reward Language Reasoning

May 14, 2024

Contextual Emotion Recognition using Large Vision Language Models
Yasaman Etesam, Özge Nilay Yalçın, Chuxuan Zhang, Angelica Lim
Vision Language Model Emotion Recognition Large Vision Language Model Facial Expression Emotional Expression

May 8, 2024

THRONE: An Object-based Hallucination Benchmark for the Free-form Generations of Large Vision-Language Models
Prannay Kaul, Zhizhong Li, Hao Yang, Yonatan Dukler, Ashwin Swaminathan, C. J. Taylor, Stefano Soatto
Large Vision Language Model Mitigating Hallucination Type II Hallucination Long Form Generation

May 1, 2024

Beyond Human Vision: The Role of Large Vision Language Models in Microscope Image Analysis
Prateek Verma, Minh-Hao Van, Xintao Wu
Vision Language Model Large Vision Language Model Integral Role Image Captioning Microscopy Image Human Vision

April 29, 2024

Hallucination of Multimodal Large Language Models: A Survey
Zechen Bai, Pichao Wang, Tianjun Xiao, Tong He, Zongbo Han, Zheng Zhang, Mike Zheng Shou
Timely Survey Multimodal Large Language Model Large Vision Language Model Content Hallucination Multimodal Task

April 26, 2024

Exploring the Distinctiveness and Fidelity of the Descriptions Generated by Large Vision-Language Models
Yuhang Huang, Zihan Wu, Chongyang Gao, Jiawei Peng, Xu Yang
Fine Grained Large Vision Language Model Description Library Multimodal Language Model Fidelity Reward Fine Grained Textual Description

April 24, 2024

MMT-Bench: A Comprehensive Multimodal Benchmark for Evaluating Large Vision-Language Models Towards Multitask AGI
Kaining Ying, Fanqing Meng, Jin Wang, Zhiqian Li, Han Lin, Yue Yang, Hao Zhang, Wenbo Zhang, Yuqi Lin, Shuo Liu, Jiayi Lei, Quanfeng Lu, Runjian Chen, Peng Xu, Renrui Zhang, Haozhe Zhang, Peng Gao, Yali Wang, Yu Qiao, Ping Luo, Kaipeng Zhang, Wenqi Shao
Large Vision Language Model Multimodal Task Multimodal Understanding Multimodal Benchmark ML Agent Bench

April 22, 2024

April 19, 2024

ECOR: Explainable CLIP for Object Recognition
Ali Rasekh, Sepehr Kazemi Ranjbar, Milad Heidari, Wolfgang Nejdl
High Explainability Large Vision Language Model Single CLIP Object Recognition Explainable Classification

April 16, 2024

Papers

Calibrated Self-Rewarding Vision Language Models

UDKAG: Augmenting Large Vision-Language Models with Up-to-Date Knowledge

Towards Transferable Attacks Against Vision-LLMs in Autonomous Driving with Typography

Unveiling the Tapestry of Consistency in Large Vision-Language Models

Refining Skewed Perceptions in Vision-Language Models through Visual Representations

C3L: Content Correlated Vision-Language Instruction Tuning Data Generation via Contrastive Learning

Rethinking Overlooked Aspects in Vision-Language Models

Enhancing Fine-Grained Image Classifications via Cascaded Vision Language Models

Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning

Contextual Emotion Recognition using Large Vision Language Models

THRONE: An Object-based Hallucination Benchmark for the Free-form Generations of Large Vision-Language Models

Beyond Human Vision: The Role of Large Vision Language Models in Microscope Image Analysis

Hallucination of Multimodal Large Language Models: A Survey

Exploring the Distinctiveness and Fidelity of the Descriptions Generated by Large Vision-Language Models

MMT-Bench: A Comprehensive Multimodal Benchmark for Evaluating Large Vision-Language Models Towards Multitask AGI

Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback

VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models

ECOR: Explainable CLIP for Object Recognition

Vocabulary-free Image Classification and Semantic Segmentation

Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases