Multimodal Large Language Model

Multimodal large language models (MLLMs) integrate multiple data modalities, such as text, images, and audio, to enhance understanding and reasoning capabilities beyond those of unimodal models. Current research emphasizes improving MLLM performance through refined architectures (e.g., incorporating visual grounding, chain-of-thought prompting), mitigating biases and hallucinations, and developing robust evaluation benchmarks that assess various aspects of multimodal understanding, including active perception and complex reasoning tasks. This work is significant because it pushes the boundaries of AI capabilities, leading to advancements in diverse applications like medical diagnosis, financial analysis, and robotic manipulation.

497papers

Papers - Page 11

December 23, 2024

Multimodal Preference Data Synthetic Alignment with Reward Model
Vision Language Benchmark Multimodal Alignment Caption Generation Multimodal Large Language Model Vision Language Task

December 22, 2024

GME: Improving Universal Multimodal Retrieval by Multimodal LLMs
Multimodal Large Language Model Multimodal LLM Multimodal Embeddings Multimodal Retrieval

December 21, 2024

December 19, 2024

December 17, 2024

December 15, 2024

Drawing the Line: Enhancing Trustworthiness of MLLMs Through the Power of Refusal
Best Fit Line Refusal Training Multimodal Large Language Model Boundary Aware Real Power

Multimodal Large Language Model

Papers - Page 11

Multimodal Preference Data Synthetic Alignment with Reward Model

GME: Improving Universal Multimodal Retrieval by Multimodal LLMs

Revisiting MLLMs: An In-Depth Analysis of Image Classification Abilities

Application of Multimodal Large Language Models in Autonomous Driving

Beyond Human Data: Aligning Multimodal Large Language Models by Iterative Self-Evolution

QUART-Online: Latency-Free Large Multimodal Language Model for Quadruped Robot Learning

Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage

OpenEMMA: Open-Source Multimodal Model for End-to-End Autonomous Driving

Multimodal Hypothetical Summary for Retrieval-based Multi-image Question Answering

Unveiling Uncertainty: A Deep Dive into Calibration and Performance of Multimodal Large Language Models

Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

LLaVA-UHD v2: an MLLM Integrating High-Resolution Semantic Pyramid via Hierarchical Window Transformer

RACQUET: Unveiling the Dangers of Overlooked Referential Ambiguity in Visual LLMs

Modality-Inconsistent Continual Learning of Multimodal Large Language Models

ComprehendEdit: A Comprehensive Dataset and Evaluation Framework for Multimodal Knowledge Editing

Make Imagination Clearer! Stable Diffusion-based Visual Imagination for Multimodal Machine Translation

LLaVA Steering: Visual Instruction Tuning with 500x Fewer Parameters through Modality Linear Representation-Steering

CG-Bench: Clue-grounded Question Answering Benchmark for Long Video Understanding

ACE-M³: Automatic Capability Evaluator for Multimodal Medical Models

Drawing the Line: Enhancing Trustworthiness of MLLMs Through the Power of Refusal

Multimodal Large Language Model

Papers - Page 11

Multimodal Preference Data Synthetic Alignment with Reward Model

GME: Improving Universal Multimodal Retrieval by Multimodal LLMs

Revisiting MLLMs: An In-Depth Analysis of Image Classification Abilities

Application of Multimodal Large Language Models in Autonomous Driving

Beyond Human Data: Aligning Multimodal Large Language Models by Iterative Self-Evolution

QUART-Online: Latency-Free Large Multimodal Language Model for Quadruped Robot Learning

Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage

OpenEMMA: Open-Source Multimodal Model for End-to-End Autonomous Driving

Multimodal Hypothetical Summary for Retrieval-based Multi-image Question Answering

Unveiling Uncertainty: A Deep Dive into Calibration and Performance of Multimodal Large Language Models

Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

LLaVA-UHD v2: an MLLM Integrating High-Resolution Semantic Pyramid via Hierarchical Window Transformer

RACQUET: Unveiling the Dangers of Overlooked Referential Ambiguity in Visual LLMs

Modality-Inconsistent Continual Learning of Multimodal Large Language Models

ComprehendEdit: A Comprehensive Dataset and Evaluation Framework for Multimodal Knowledge Editing

Make Imagination Clearer! Stable Diffusion-based Visual Imagination for Multimodal Machine Translation

LLaVA Steering: Visual Instruction Tuning with 500x Fewer Parameters through Modality Linear Representation-Steering

CG-Bench: Clue-grounded Question Answering Benchmark for Long Video Understanding

ACE-M3: Automatic Capability Evaluator for Multimodal Medical Models

Drawing the Line: Enhancing Trustworthiness of MLLMs Through the Power of Refusal

ACE-M³: Automatic Capability Evaluator for Multimodal Medical Models