Multimodal Model

December 12, 2024

Enhancing Modality Representation and Alignment for Multimodal Cold-start Active Learning
Meng Shen, Yake Wei, Jianxiong Yin, Deepu Rajan, Di Hu, Simon See
Multimodal Data Multimodal Model Alignment Problem Multimodal Dataset Modality Gap Modality Representation Start Active Learning
A Wander Through the Multimodal Landscape: Efficient Transfer Learning via Low-rank Sequence Multimodal Adapter
Zirun Guo, Xize Cheng, Yangyang Wu, Tao Jin
Vision Language Model Multimodal Model Low Rank Vision Language Task Unimodal Model Efficient Transfer Learning Wandering Voice

December 11, 2024

Illusory VQA: Benchmarking and Enhancing Multimodal Models on Visual Illusions
Mohammadmostafa Rostamkhani, Baktash Ansari, Hoorieh Sabzevari, Farzan Rahmani, Sauleh Eetemadi
Visual Question Answering Multimodal Model Benchmark Platform Optical Illusion

December 10, 2024

ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer
Jinyi Hu, Shengding Hu, Yuxuan Song, Yufei Huang, Mingxuan Wang, Hao Zhou, Zhiyuan Liu, Wei-Ying Ma, Maosong Sun
Transformer Based Image Generation Diffusion Explainer Multimodal Model Autoregressive Model Autoregressive Decoding

December 9, 2024

December 7, 2024

Comprehensive Evaluation of Multimodal AI Models in Medical Imaging Diagnosis: From Data Augmentation to Preference-Based Comparison
Cailian Ruan, Chengyue Huang, Yahe Yang
Data Augmentation Medical Image Large Multimodal Model Medical Imaging Multimodal Model Vision Model Comprehensive Evaluation Multimodal AI Medical Image Data Comparative Evaluation

December 5, 2024

December 4, 2024

Training-Free Mitigation of Language Reasoning Degradation After Multimodal Instruction Tuning
Neale Ratzlaff, Man Luo, Xin Su, Vasudev Lal, Phillip Howard
Instruction Tuning Multimodal Model Multimodal Instruction Language Reasoning

December 3, 2024

SJTU:Spatial judgments in multimodal models towards unified segmentation through coordinate detection
Joongwon Chae, Zhenyu Wang, Peiwu Qin
Vision Language Model Multimodal Model Multi Modal Model Spatial Reasoning Vision Language Understanding General Object Unified Segmentation

December 2, 2024

Attacks on multimodal models
Viacheslav Iablochnikov, Alexander Rogachev
Multimodal Model New Attack Security Vulnerability Patch Attack CLIP Score

November 29, 2024

LUMIA: Linear probing for Unimodal and MultiModal Membership Inference Attacks leveraging internal LLM states
Luis Ibanez-Lissen, Lorena Gonzalez-Manzano, Jose Maria de Fuentes, Nicolas Anciaux, Joaquin Garcia-Alfaro
Multimodal Model Unimodal Model Linear Probing Membership Inference Linear Ordered Data

November 28, 2024

November 26, 2024

NEMO: Can Multimodal LLMs Identify Attribute-Modified Objects?
Jiaxuan Li, Junwen Mo, MinhDuc Vo, Akihiro Sugimoto, Hideki Nakayama
Medical LLM Multimodal Large Language Model Multimodal Model Object Recognition Visual Encoder Vision Encoders

November 23, 2024

Knowledge Transfer Across Modalities with Natural Language Supervision
Carlo Alberto Barbano, Luca Molinaro, Emanuele Aiello, Marco Grangetto
Knowledge Transfer Multimodal Model Different Modality High Level Language Supervision

November 18, 2024

Artificial Scientific Discovery
Antonio Norelli
Deep Learning Line by Line Explanation Multimodal Model AI Researcher Exploratory Learning Autonomous Discovery

November 16, 2024

ViBe: A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models
Vipula Rawte, Sarthak Jain, Aarush Sinha, Garv Kaushik, Aman Bansal, Prathiksha Rumale Vishwanath, Samyak Rajesh Jain, Aishwarya Naresh Reganti, Vinija Jain, Aman Chadha, Amit P. Sheth, Amitava Das
Large Multimodal Model Multimodal Model Text to Video Hallucination Detection Video Text Hallucination Evaluation

November 15, 2024

Instruction-Guided Editing Controls for Images and Multimedia: A Survey in LLM era
Thanh Tam Nguyen, Zhao Ren, Trinh Pham, Phi Le Nguyen, Hongzhi Yin, Quoc Viet Hung Nguyen
Timely Survey Multimodal Model Multimodal Learning LLM Powered Writing Multimodal Integration LLM Era Instruction Based Editing

Papers

Enhancing Modality Representation and Alignment for Multimodal Cold-start Active Learning

A Wander Through the Multimodal Landscape: Efficient Transfer Learning via Low-rank Sequence Multimodal Adapter

Illusory VQA: Benchmarking and Enhancing Multimodal Models on Visual Illusions

ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer

How to Merge Your Multimodal Models Over Time?

iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models

Comprehensive Evaluation of Multimodal AI Models in Medical Imaging Diagnosis: From Data Augmentation to Preference-Based Comparison

BigDocs: An Open and Permissively-Licensed Dataset for Training Multimodal Models on Document and Code Tasks

AIpparel: A Large Multimodal Generative Model for Digital Garments

Training-Free Mitigation of Language Reasoning Degradation After Multimodal Instruction Tuning

SJTU:Spatial judgments in multimodal models towards unified segmentation through coordinate detection

Attacks on multimodal models

LUMIA: Linear probing for Unimodal and MultiModal Membership Inference Attacks leveraging internal LLM states

Beyond Logit Lens: Contextual Embeddings for Robust Hallucination Detection & Grounding in VLMs

ScratchEval: Are GPT-4o Smarter than My Child? Evaluating Large Multimodal Models with Visual Programming Challenges

NEMO: Can Multimodal LLMs Identify Attribute-Modified Objects?

Knowledge Transfer Across Modalities with Natural Language Supervision

Artificial Scientific Discovery

ViBe: A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models

Instruction-Guided Editing Controls for Images and Multimedia: A Survey in LLM era