Large Vision Language Model

October 10, 2024

CoPESD: A Multi-Level Surgical Motion Dataset for Training Large Vision-Language Models to Co-Pilot Endoscopic Submucosal Dissection
Guankun Wang, Han Xiao, Huxin Gao, Renrui Zhang, Long Bai, Xiaoxiao Yang, Zhen Li, Hongsheng Li, Hongliang Ren
Large Vision Language Model Human Motion Robotic Surgery Surgical Video

October 9, 2024

Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate
Qidong Huang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Jiaqi Wang, Dahua Lin, Weiming Zhang, Nenghai Yu
Large Vision Language Model Cross Modal Alignment Modality Alignment Multi Modal Pre Training Modal Integration
EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models
Rui Zhao, Hangjie Yuan, Yujie Wei, Shiwei Zhang, Yuchao Gu, Lingmin Ran, Xiang Wang, Zhangjie Wu, Junhao Zhang, Yingya Zhang, Mike Zheng Shou
Large Vision Language Model Generation Model Edge Model Complex Model
From Pixels to Tokens: Revisiting Object Hallucinations in Large Vision-Language Models
Yuying Shang, Xinyi Zeng, Yutao Zhu, Xiao Yang, Zhengwei Fang, Jingyuan Zhang, Jiawei Chen, Zinan Liu, Yu Tian
Large Vision Language Model Tetromino Pixel K TOKEN Visual Feature Visual Input Visual Encoder Object Hallucination Hallucination Dataset
Break the Visual Perception: Adversarial Attacks Targeting Encoded Visual Tokens of Large Vision-Language Models
Yubo Wang, Chaohu Liu, Yanqiu Qu, Haoyu Cao, Deqiang Jiang, Linli Xu
Adversarial Attack Large Vision Language Model Visual Perception Adversarial Image Visual Token BREAK for Make Token Level Attack
From Generalist to Specialist: Adapting Vision Language Models via Task-Specific Visual Instruction Tuning
Yang Bai, Yang Zhou, Jun Zhou, Rick Siow Mong Goh, Daniel Shu Wei Ting, Yong Liu
Vision Language Model Large Vision Language Model Task Specific Model Generalist Learner Expertise Level Contrastive Tuning

October 8, 2024

ERVQA: A Dataset to Benchmark the Readiness of Large Vision Language Models in Hospital Environments
Sourjyadip Ray, Kushal Gupta, Soumi Kundu, Payal Arvind Kasat, Somak Aditya, Pawan Goyal
Data Set New Benchmark Large Vision Language Model Visual Question Answering Medical Visual Question Answering Healthcare Facility

October 7, 2024

October 6, 2024

October 5, 2024

TUBench: Benchmarking Large Vision-Language Models on Trustworthiness with Unanswerable Questions
Xingwei He, Qianru Zhang, A-Long Jin, Yuan Yuan, Siu-Ming Yiu
Large Vision Language Model Visual Question Answering Visual Perception Visual Context Unanswerable Question

October 4, 2024

October 3, 2024

DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects
Zhaowei Wang, Hongming Zhang, Tianqing Fang, Ye Tian, Yue Yang, Kaixin Ma, Xiaoman Pan, Yangqiu Song, Dong Yu
Imitation Learning Large Vision Language Model Arbitrary Object Action Prediction Diverse Image Object Navigation

October 2, 2024

LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models
Zhenyue Qin, Yu Yin, Dylan Campbell, Xuansheng Wu, Ke Zou, Yih-Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen
New Benchmark Large Vision Language Model Fundus Image Visual Complexity Ophthalmic Image

October 1, 2024

Probing Mechanical Reasoning in Large Vision Language Models
Haoran Sun, Qingying Gao, Haiyun Lyu, Dezhi Luo, Hokin Deng, Yijiang Li
Artificial Intelligence Large Vision Language Model Logic Reasoning Physical Reasoning Human Level Psychological Experiment Cognitively Inspired Benchmark

September 30, 2024

Papers

CoPESD: A Multi-Level Surgical Motion Dataset for Training Large Vision-Language Models to Co-Pilot Endoscopic Submucosal Dissection

Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate

EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models

From Pixels to Tokens: Revisiting Object Hallucinations in Large Vision-Language Models

Break the Visual Perception: Adversarial Attacks Targeting Encoded Visual Tokens of Large Vision-Language Models

From Generalist to Specialist: Adapting Vision Language Models via Task-Specific Visual Instruction Tuning

ERVQA: A Dataset to Benchmark the Readiness of Large Vision Language Models in Hospital Environments

TextHawk2: A Large Vision-Language Model Excels in Bilingual OCR and Grounding with 16x Fewer Tokens

TLDR: Token-Level Detective Reward Model for Large Vision Language Models

DAMRO: Dive into the Attention Mechanism of LVLM to Reduce Object Hallucination

MVP-Bench: Can Large Vision--Language Models Conduct Multi-level Visual Perception Like Humans?

TUBench: Benchmarking Large Vision-Language Models on Trustworthiness with Unanswerable Questions

Unraveling Cross-Modality Knowledge Conflict in Large Vision-Language Models

LeLaN: Learning A Language-Conditioned Navigation Policy from In-the-Wild Videos

Investigating and Mitigating Object Hallucinations in Pretrained Vision-Language (CLIP) Models

DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects

LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models

Probing Mechanical Reasoning in Large Vision Language Models

HELPD: Mitigating Hallucination of LVLMs by Hierarchical Feedback Learning with Vision-enhanced Penalty Decoding

Resolving Positional Ambiguity in Dialogues by Vision-Language Models for Robot Navigation