Large Multi Modal Model

Large multi-modal models (LMMs) integrate multiple data modalities, such as text and images or video, to perform complex tasks like visual question answering and image captioning. Current research emphasizes improving LMM efficiency through techniques like visual context compression and specialized architectures such as mixtures of experts, while also addressing challenges such as hallucinations and robustness to noisy or incomplete data. These advancements are significant because they enable more powerful and versatile AI systems with applications ranging from assistive technologies for the visually impaired to advanced robotics and medical diagnosis.

Papers

January 30, 2024

Large Multi-Modal Models (LMMs) as Universal Foundation Models for AI-Native Wireless Systems
Shengzhe Xu, Christo Kurisummoottil Thomas, Omar Hashash, Nikhil Muralidhar, Walid Saad, Naren Ramakrishnan
Foundation Model Large Multi Modal Model Artificial Intelligence Native Video LMMs

January 18, 2024

Advancing Large Multi-modal Models with Explicit Chain-of-Reasoning and Visual Question Generation
Kohei Uehara, Nabarun Goswami, Hanqin Wang, Toshiaki Baba, Kohtaro Tanaka, Tomohiro Hashimoto, Kai Wang, Rei Ito, Takagi Naoya, Ryo Umagami, Yingyi Wen, Tanachai Anakewat, Tatsuya Harada
Large Language Model Complex Reasoning Chain of Thought Large Multi Modal Model Visual Question Generation

December 22, 2023

FoodLMM: A Versatile Food Assistant using Large Multi-modal Model
Yuehao Yin, Huiyan Qi, Bin Zhu, Jingjing Chen, Yu-Gang Jiang, Chong-Wah Ngo
Food Classification Large Multi Modal Model Food Recognition Food Development Food Segmentation

December 16, 2023

M2ConceptBase: A Fine-grained Aligned Multi-modal Conceptual Knowledge Base
Zhiwei Zha, Jiaan Wang, Zhixu Li, Xiangru Zhu, Wei Song, Yanghua Xiao
Fine Grained Cross Modal Alignment Large Multi Modal Model Fine Grained Cross Modal Alignment

December 7, 2023

Hijacking Context in Large Multi-modal Models
Joonhyun Jeong
Text to Image Model Large Multi Modal Model Textual Context Hijacking Task

December 5, 2023

LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models
Hao Zhang, Hongyang Li, Feng Li, Tianhe Ren, Xueyan Zou, Shilong Liu, Shijia Huang, Jianfeng Gao, Lei Zhang, Chunyuan Li, Jianwei Yang
Language Model Large Multimodal Model Visual Grounding Large Multi Modal Model

December 1, 2023

Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts
Jialin Wu, Xia Hu, Yaqing Wang, Bo Pang, Radu Soricut
Mixture Component Mixture of Expert Low Rank Expert Model Large Multi Modal Model Vision and Language Multimodal Generalization

November 29, 2023

Explaining CLIP's performance disparities on data from blind/low vision users
Daniela Massiceti, Camilla Longden, Agnieszka Słowik, Samuel Wills, Martin Grayson, Cecily Morrison
Raw Data Single CLIP Visual Instruction Large Multi Modal Model Assistive Technology Zero Shot Classification Task Performance Disparity

November 21, 2023

ShareGPT4V: Improving Large Multi-Modal Models with Better Captions
Lin Chen, Jinsong Li, Xiaoyi Dong, Pan Zhang, Conghui He, Jiaqi Wang, Feng Zhao, Dahua Lin
Captioning Model Modality Alignment Large Multi Modal Model Multi Modal Benchmark

November 11, 2023

Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models
Zhang Li, Biao Yang, Qiang Liu, Zhiyin Ma, Shuo Zhang, Jingxu Yang, Yabo Sun, Yuliang Liu, Xiang Bai
Pre Trained Large Multimodal Model Scene Understanding Vision Language Task Good Thing Large Multi Modal Model Textual Label Image Resolution Object Scene

September 29, 2023

Practical Membership Inference Attacks Against Large-Scale Multi-Modal Models: A Pilot Study
Myeongseob Ko, Ming Jin, Chenguang Wang, Ruoxi Jia
Membership Inference Attack Pilot Study Attack Strategy Attack Method Large Multi Modal Model Set Membership

September 4, 2023

MultiWay-Adapater: Adapting large-scale multi-modal models for scalable image-text retrieval
Zijun Long, George Killick, Richard McCreadie, Gerardo Aragon Camarasa
Multimodal Large Language Model Cross Modal Alignment Image Text Retrieval Alignment Performance Large Multi Modal Model Efficient Adaptation Multiway Fusion

June 26, 2023

Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning
Fuxiao Liu, Kevin Lin, Linjie Li, Jianfeng Wang, Yaser Yacoob, Lijuan Wang
Instruction Tuning Vision Language Task Mitigating Hallucination Visual Instruction Tuning Visual Instruction Large Multi Modal Model Graph Based Robotic Instruction Decomposer

October 16, 2022

LAION-5B: An open large-scale dataset for training next generation image-text models
Christoph Schuhmann, Romain Beaumont, Richard Vencu, Cade Gordon, Ross Wightman, Mehdi Cherti, Theo Coombes, Aarush Katta, Clayton Mullis, Mitchell Wortsman, Patrick Schramowski, Srivatsa Kundurthy, Katherine Crowson, Ludwig Schmidt, Robert Kaczmarczyk, Jenia Jitsev
Training Data Image Text Pair Large Multi Modal Model Next Generation Text Guided Image Generation Image Text Model

Large Multi Modal Model

Papers

Large Multi-Modal Models (LMMs) as Universal Foundation Models for AI-Native Wireless Systems

Advancing Large Multi-modal Models with Explicit Chain-of-Reasoning and Visual Question Generation

FoodLMM: A Versatile Food Assistant using Large Multi-modal Model

M2ConceptBase: A Fine-grained Aligned Multi-modal Conceptual Knowledge Base

Hijacking Context in Large Multi-modal Models

LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models

Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts

Explaining CLIP's performance disparities on data from blind/low vision users

ShareGPT4V: Improving Large Multi-Modal Models with Better Captions

Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models

Practical Membership Inference Attacks Against Large-Scale Multi-Modal Models: A Pilot Study

MultiWay-Adapater: Adapting large-scale multi-modal models for scalable image-text retrieval

Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning

LAION-5B: An open large-scale dataset for training next generation image-text models