Vision Assistant

Vision assistants are AI systems combining large language models (LLMs) with visual processing capabilities to perform a variety of tasks, aiming to provide helpful and informative interactions with users. Current research focuses on improving model efficiency, addressing issues like hallucinations and biases, and developing robust architectures (like LLaVA-style models and multimodal LLMs) for diverse applications, including medical diagnosis, activity assistance, and industrial inspection. These advancements hold significant potential for improving accessibility, automating complex tasks, and enhancing human-computer interaction across numerous domains.

14papers

Papers

March 28, 2025

Evaluating Multimodal Language Models as Visual Assistants for Visually Impaired Users
Antonia Karamolegkou, Malvina Nikandrou, Georgios Pantazopoulos, Danae Sanchez Villegas, Phillip Rust, Ruchira Dhar, Daniel Hershcovich+1
University of Copenhagen●Heriot-Watt University
Object Recognition Multimodal Language Model Intellectual Disability Multimodal Phenomenon Assistive Technology Multimodal AI Vision Assistant

March 26, 2025

UniEDU: A Unified Language and Vision Assistant for Education Applications
Zhendong Chu, Jian Xie, Shen Wang, Zichao Wang, Qingsong Wen
Squirrel Ai Learning●Fudan University●Adobe Research
Financial Application Vision Assistant Education Domain Task Specific Model Mixed Task Effective Recommendation

November 29, 2024

DLaVA: Document Language and Vision Assistant for Answer Localization with Enhanced Interpretability and Trustworthiness
Ahmad Mohammadshirazi, Pinaki Prasad Guha Neogi, Ser-Nam Lim, Rajiv Ramnath
Visual Answer Localization Vision Assistant Visual Question Answering Text Document Better Interpretability

October 28, 2024

Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines
Zhixin Zhang, Yiyuan Zhang, Xiaohan Ding, Xiangyu Yue
Vision Language Model Vision Assistant Search Engine Multimodal Phenomenon Visual Imagery Visual Search Visual Understanding

October 19, 2024

LLaVA-Ultra: Large Chinese Language and Vision Assistant for Ultrasound
Xuechen Guo, Wenhao Chai, Shi-Yan Li, Gaoang Wang
Vision Assistant Medical Image Representation Chinese Learner Multimodal Large Language Model LLaVA HD

September 20, 2024

SLaVA-CXR: Small Language and Vision Assistant for Chest X-ray Report Automation
Jinge Wu, Yunsoo Kim, Daqian Shi, David Cliffton, Fenglin Liu, Honghan Wu
Open Source Large Language Model Large Language Model Vision Assistant Chest X Ray Training Corpus Low Resource Language

August 4, 2024

User-in-the-loop Evaluation of Multimodal LLMs for Activity Assistance
Mrinal Verghese, Brian Chen, Hamid Eghbalzadeh, Tushar Nagarajan, Ruta Desai
Generating User Activity Multimodal LLM Vision Assistant Multimodal Reasoning Action Anticipation

July 27, 2024

Power-LLaVA: Large Language and Vision Assistant for Power Transmission Line Inspection
Jiahao Wang, Mingxuan Li, Haichen Luo, Jinguo Zhu, Aijun Yang, Mingzhe Rong, Xiaohua Wang
Large Language Vision Assistant Deep Learning Technology Power Line Visual Inspection

July 21, 2024

VideoGameBunny: Towards vision assistants for video games
Mohammad Reza Taesiri, Cor-Paul Bezemer
Video Game Large Multimodal Model Game Tutorial Vision Assistant Game Data

July 8, 2024

Vision-Language Models under Cultural and Inclusive Considerations
Antonia Karamolegkou, Phillip Rust, Yong Cao, Ruixiang Cui, Anders Søgaard, Daniel Hershcovich
Cross CUltural Understanding Benchmark Inclusive Approach Vision Assistant Large Vision Language Model Local Culture Vision Language Model

June 28, 2024

STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical Question-Answering
Guohao Sun, Can Qin, Huazhu Fu, Linwei Wang, Zhiqiang Tao
Large Language Vision Assistant Language Model Large Vision Language Model Medical Visual Question Answering

June 20, 2024

VGA: Vision GUI Assistant -- Minimizing Hallucinations through Image-Centric Fine-Tuning
Ziyang Meng, Yu Dai, Zezheng Gong, Shaoxiong Guo, Minglong Tang, Tongquan Wei
Large Vision Language Model User Interface Mitigating Hallucination Vision Assistant Visual Question Answering Model Fine Tuning

June 17, 2024

On Efficient Language and Vision Assistants for Visually-Situated Natural Language Understanding: What Matters in Reading and Reasoning
Geewook Kim, Minjoon Seo
Visually Grounded Vision Language Model Vision Assistant Code Efficiency Vision Module Read V

June 13, 2024

Yo'LLaVA: Your Personalized Language and Vision Assistant
Thao Nguyen, Haotian Liu, Yuheng Li, Mu Cai, Utkarsh Ojha, Yong Jae Lee
Personalized Subject Vision Assistant Visual Question Answering Latent Token Human Reasoning Large Multimodal Model

May 14, 2024

VS-Assistant: Versatile Surgery Assistant on the Demand of Surgeons
Zhen Chen, Xingjian Luo, Jinlin Wu, Danny T. M. Chan, Zhen Lei, Jinqiao Wang, Sebastien Ourselin, Hongbin Liu
Video Game Demand Individual Surgeon Fine Tuning Medical Assistant Surgical Feedback Surgical Scene Understanding Vision Assistant

January 11, 2024

Hallucination Benchmark in Medical Visual Question Answering
Jinge Wu, Yunsoo Kim, Honghan Wu
Hallucination Benchmark Type II Hallucination Vision Assistant Vision Model Medical Visual Question Answering Visual Question Answering

December 30, 2023

Pushing Boundaries: Exploring Zero Shot Object Classification with Large Multimodal Models
Ashhadul Islam, Md. Rafiul Biswas, Wajdi Zaghouani, Samir Brahim Belhaouari, Zubair Shah
Large Multimodal Model Shot Classification Vision Model Visual Understanding Multimodal Model Vision Assistant

December 18, 2023

CLOVA: A Closed-Loop Visual Assistant with Tool Usage and Update
Zhi Gao, Yuntao Du, Xintong Zhang, Xiaojian Ma, Wenjuan Han, Song-Chun Zhu, Qing Li
Vision Assistant Tool Usage Visual Task Rank One Update Visual Question Answering

September 29, 2023

HoloAssist: an Egocentric Human Interaction Dataset for Interactive AI Assistants in the Real World
Xin Wang, Taein Kwon, Mahdi Rad, Bowen Pan, Ishani Chakraborty, Sean Andrist, Dan Bohus, Ashley Feniello, Bugra Tekin, Felipe Vieira Frujeri+2
AI Assistant Real World AI Community Vision Assistant

Vision Assistant

Papers

Evaluating Multimodal Language Models as Visual Assistants for Visually Impaired Users

UniEDU: A Unified Language and Vision Assistant for Education Applications

DLaVA: Document Language and Vision Assistant for Answer Localization with Enhanced Interpretability and Trustworthiness

Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines

LLaVA-Ultra: Large Chinese Language and Vision Assistant for Ultrasound

SLaVA-CXR: Small Language and Vision Assistant for Chest X-ray Report Automation

User-in-the-loop Evaluation of Multimodal LLMs for Activity Assistance

Power-LLaVA: Large Language and Vision Assistant for Power Transmission Line Inspection

VideoGameBunny: Towards vision assistants for video games

Vision-Language Models under Cultural and Inclusive Considerations

STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical Question-Answering

VGA: Vision GUI Assistant -- Minimizing Hallucinations through Image-Centric Fine-Tuning

On Efficient Language and Vision Assistants for Visually-Situated Natural Language Understanding: What Matters in Reading and Reasoning

Yo'LLaVA: Your Personalized Language and Vision Assistant

VS-Assistant: Versatile Surgery Assistant on the Demand of Surgeons

Hallucination Benchmark in Medical Visual Question Answering

Pushing Boundaries: Exploring Zero Shot Object Classification with Large Multimodal Models

CLOVA: A Closed-Loop Visual Assistant with Tool Usage and Update

HoloAssist: an Egocentric Human Interaction Dataset for Interactive AI Assistants in the Real World