Vision Language Foundation Model

Vision-language foundation models (VLMs) integrate visual and textual information to achieve robust multimodal understanding, aiming to bridge the gap between computer vision and natural language processing. Current research emphasizes improving VLM performance on diverse downstream tasks through techniques like prompt engineering, test-time adaptation, and efficient fine-tuning methods, often leveraging architectures based on CLIP and incorporating large language models. These advancements are significantly impacting various fields, including medical image analysis, autonomous driving, and robotics, by enabling more accurate, efficient, and generalizable solutions for complex tasks.

Papers

June 13, 2024

Common and Rare Fundus Diseases Identification Using Vision-Language Foundation Model with Knowledge of Over 400 Diseases
Meng Wang, Tian Lin, Aidi Lin, Kai Yu, Yuanyuan Peng, Lianyu Wang, Cheng Chen, Ke Zou, Huiyu Liang, Man Chen, Xue Yao, Meiqin Zhang, Binwei Huang, Chaoxin Zheng, Peixin Zhang, Wei Chen, Yilong Luo, Yifan Chen, Honghe Xia, Tingkun Shi, Qi Zhang, Jinming Guo, Xiaolin Chen, Jingcheng Wang, Yih Chung Tham, Dianbo Liu, Wendy Wong, Sahil Thakur, Beau Fenner, Danqi Fang, Siying Liu, Qingyun Liu, Yuqiang Huang, Hongqiang Zeng, Yanda Meng, Yukun Zhou, Zehua Jiang, Minghui Qiu, Changqing Zhang, Xinjian Chen, Sophia Y Wang, Cecilia S Lee, Lucia Sobrin, Carol Y Cheung, Chi Pui Pang, Pearse A Keane, Ching-Yu Cheng, Haoyu Chen, Huazhu Fu
Zero Shot Knowledge Based Common Disease Disease Classification Vision Language Foundation Model Retina Model Retinal Disease Classification

June 10, 2024

Merlin: A Vision Language Foundation Model for 3D Computed Tomography
Louis Blankemeier, Joseph Paul Cohen, Ashwin Kumar, Dave Van Veen, Syed Jamal Safdar Gardezi, Magdalini Paschali, Zhihong Chen, Jean-Benoit Delbrouck, Eduardo Reis, Cesar Truyts, Christian Bluethgen, Malte Engmann Kjeldskov Jensen, Sophie Ostmeier, Maya Varma, Jeya Maria Jose Valanarasu, Zhongnan Fang, Zepeng Huo, Zaid Nabulsi, Diego Ardila, Wei-Hung Weng, Edson Amaro Junior, Neera Ahuja, Jason Fries, Nigam H. Shah, Andrew Johnston, Robert D. Boutin, Andrew Wentland, Curtis P. Langlotz, Jason Hom, Sergios Gatidis, Akshay S. Chaudhari
Zero Shot Vision Language Model Radiology Report Generation Vision Language Foundation Model 3d Ct

June 3, 2024

ED-SAM: An Efficient Diffusion Sampling Approach to Domain Generalization in Vision-Language Foundation Models
Thanh-Dat Truong, Xin Li, Bhiksha Raj, Jackson Cothren, Khoa Luu
Vision Language Model Vision Language Domain Generalization Vision Language Foundation Model Diffusion Sampling Elev Vision Sam

May 29, 2024

Parameter-efficient Fine-tuning in Hyperspherical Space for Open-vocabulary Semantic Segmentation
Zelin Peng, Zhengqin Xu, Zhilin Zeng, Yaoming Wang, Wei Shen
Semantic Segmentation Parameter Efficient Fine Tuning Vision Language Foundation Model Open Vocabulary Semantic Segmentation HyperSpherical Energy

May 23, 2024

RET-CLIP: A Retinal Image Foundation Model Pre-trained with Clinical Diagnostic Reports
Jiawei Du, Jia Guo, Weihang Zhang, Shengzhu Yang, Hanruo Liu, Huiqi Li, Ningli Wang
Computer Vision Foundation Model Vision Language Foundation Model Color Fundus CLIP TD Outperforms

May 20, 2024

Mammo-CLIP: A Vision Language Foundation Model to Enhance Data Efficiency and Robustness in Mammography
Shantanu Ghosh, Clare B. Poynton, Shyam Visweswaran, Kayhan Batmanghelich
Native Robustness Computer Vision Image Text Vision Language Foundation Model Mammography Report Breast Cancer Detection Digital Mammogram Data Efficiency

April 16, 2024

Closed-Loop Open-Vocabulary Mobile Manipulation with GPT-4V
Peiyuan Zhi, Zhiyuan Zhang, Muzhi Han, Zeyu Zhang, Zhitian Li, Ziyuan Jiao, Baoxiong Jia, Siyuan Huang
GPT 4 Autonomous Exploration Vision Language Foundation Model Long Horizon Task Planning Open Vocabulary Mobile Manipulation Robot Time

April 8, 2024

MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding
Bo He, Hengduo Li, Young Kyun Jang, Menglin Jia, Xuefei Cao, Ashish Shah, Abhinav Shrivastava, Ser-Nam Lim
Large Multimodal Model Vision Language Foundation Model Long Form Video Understanding Long Term Video Understanding

April 1, 2024

GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields
Yunsong Wang, Hanlin Chen, Gim Hee Lee
Open Vocabulary Implicit Neural Representation Vision Language Foundation Model Semantic Field

March 15, 2024

VideoAgent: Long-form Video Understanding with Large Language Model as Agent
Xiaohan Wang, Yuhui Zhang, Orr Zohar, Serena Yeung-Levy
Large Language Model Computer Vision Agent Smith Vision Language Foundation Model Long Form Video Understanding Long Input Visual Agent

March 2, 2024

SceneCraft: An LLM Agent for Synthesizing 3D Scene as Blender Code
Ziniu Hu, Ahmet Iscen, Aashi Jain, Thomas Kipf, Yisong Yue, David A. Ross, Cordelia Schmid, Alireza Fathi
Large Language Model 3D Scene Scene Graph Vision Language Foundation Model

March 1, 2024

Spurious Feature Eraser: Stabilizing Test-Time Adaptation for Vision-Language Foundation Model
Huan Ma, Yan Zhu, Changqing Zhang, Peilin Zhao, Baoyuan Wu, Long-Kai Huang, Qinghua Hu, Bingzhe Wu
Adaptation Concern Vision Language Foundation Model CLIP Model Fine Grained Image Classification Pre Trained Feature Feature Forgetting

February 22, 2024

Demographic Bias of Expert-Level Vision-Language Foundation Models in Medical Imaging
Yuzhe Yang, Yujia Liu, Xin Liu, Avanti Gulhane, Domenico Mastrodicasa, Wei Wu, Edward J Wang, Dushyant W Sahani, Shwetak Patel
Artificial Intelligence Medical Imaging Artificial Intelligence Model Algorithmic Fairness Vision Language Foundation Model Human Bias Demographic Bias Language Foundation Model

February 17, 2024

ChatEarthNet: A Global-Scale Image-Text Dataset Empowering Vision-Language Geo-Foundation Models
Zhenghang Yuan, Zhitong Xiong, Lichao Mou, Xiao Xiang Zhu
Data Set Image Text Vision Language Foundation Model Global Scale

February 6, 2024

RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback
Yufei Wang, Zhanyi Sun, Jesse Zhang, Zhou Xian, Erdem Biyik, David Held, Zackory Erickson
Reinforcement Learning Reward Function Vision Language Foundation Model Reward Structure Reward Engineering

February 2, 2024

The Role of Foundation Models in Neuro-Symbolic Learning and Reasoning
Daniel Cunnington, Mark Law, Jorge Lobo, Alessandra Russo
Foundation Model Complex Reasoning Integral Role Neuro Symbolic Vision Language Foundation Model Implicit Knowledge Symbolic Representation Symbolic Computation Neuro Symbolic Learning

January 29, 2024

M2-Encoder: Advancing Bilingual Image-Text Understanding by Large-scale Efficient Pretraining
Qingpei Guo, Furong Xu, Hanxiao Zhang, Wang Ren, Ziping Ma, Lin Ju, Jian Wang, Jingdong Chen, Ming Yang
Human Understanding Image Text Vision Language Foundation Model Large Scale Pretraining Encoder Architecture Imagenet C

January 27, 2024

Exploring the Transferability of a Foundation Model for Fundus Images: Application to Hypertensive Retinopathy
Julio Silva-Rodriguez, Jihed Chelbi, Waziha Kabir, Hadi Chakor, Jose Dolz, Ismail Ben Ayed, Riadh Kobbi
Application Proficiency Foundation Model Supervised ImageNet Fundus Image Task Transferability Vision Language Foundation Model

January 22, 2024

A Vision-Language Foundation Model to Enhance Efficiency of Chest X-ray Interpretation
Zhihong Chen, Maya Varma, Justin Xu, Magdalini Paschali, Dave Van Veen, Andrew Johnston, Alaa Youssef, Louis Blankemeier, Christian Bluethgen, Stephan Altmayer, Jeya Maria Jose Valanarasu, Mohamed Siddig Eltayeb Muneer, Eduardo Pontes Reis, Joseph Paul Cohen, Cameron Olsen, Tanishq Mathew Abraham, Emily B. Tsai, Christopher F. Beaulieu, Jenia Jitsev, Sergios Gatidis, Jean-Benoit Delbrouck, Akshay S. Chaudhari, Curtis P. Langlotz
Foundation Model Vision Language Foundation Model Chest Radiograph Clinical Large Language Model CXR Imaging Pediatric CXR

January 21, 2024

Enhancing the vision-language foundation model with key semantic knowledge-emphasized report refinement
Weijian Huang, Cheng Li, Hao Yang, Jiarun Liu, Yong Liang, Hairong Zheng, Shanshan Wang
Vision Language Vision Language Foundation Model Vision Language Representation Semantic Knowledge Emphasized Report Refinement Knowledge Augmented

Vision Language Foundation Model

Papers

Common and Rare Fundus Diseases Identification Using Vision-Language Foundation Model with Knowledge of Over 400 Diseases

Merlin: A Vision Language Foundation Model for 3D Computed Tomography

ED-SAM: An Efficient Diffusion Sampling Approach to Domain Generalization in Vision-Language Foundation Models

Parameter-efficient Fine-tuning in Hyperspherical Space for Open-vocabulary Semantic Segmentation

RET-CLIP: A Retinal Image Foundation Model Pre-trained with Clinical Diagnostic Reports

Mammo-CLIP: A Vision Language Foundation Model to Enhance Data Efficiency and Robustness in Mammography

Closed-Loop Open-Vocabulary Mobile Manipulation with GPT-4V

MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding

GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields

VideoAgent: Long-form Video Understanding with Large Language Model as Agent

SceneCraft: An LLM Agent for Synthesizing 3D Scene as Blender Code

Spurious Feature Eraser: Stabilizing Test-Time Adaptation for Vision-Language Foundation Model

Demographic Bias of Expert-Level Vision-Language Foundation Models in Medical Imaging

ChatEarthNet: A Global-Scale Image-Text Dataset Empowering Vision-Language Geo-Foundation Models

RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback

The Role of Foundation Models in Neuro-Symbolic Learning and Reasoning

M2-Encoder: Advancing Bilingual Image-Text Understanding by Large-scale Efficient Pretraining

Exploring the Transferability of a Foundation Model for Fundus Images: Application to Hypertensive Retinopathy

A Vision-Language Foundation Model to Enhance Efficiency of Chest X-ray Interpretation

Enhancing the vision-language foundation model with key semantic knowledge-emphasized report refinement