the latest in aiBeta

Multimodal GPT

Multimodal GPT models aim to extend the capabilities of large language models (LLMs) by integrating visual and other sensory information, enabling them to understand and respond to complex instructions involving both text and images. Current research focuses on developing efficient training methods, such as instruction tuning and low-rank adaptation, to enhance model performance and reduce computational costs, often leveraging pre-trained models like OpenFlamingo and adapting them for multimodal tasks. These advancements are significant because they enable more robust and versatile AI systems with applications ranging from autonomous driving assistance to personalized image generation and improved human-computer interaction.

6papers

Papers

May 20, 2025

In-Context Learning Boosts Speech Recognition via Human-like Adaptation to Speakers and Language Varieties
Nathan Roll, Calbert Graham, Yuka Tatsumi, Kim Tien Nguyen, Meghan Sumner, Dan Jurafsky
Stanford University●University of Cambridge
Context Learning Diverse Population Speaker Information Human Adaptation Multimodal GPT Language Model

April 9, 2025

Have we unified image generation and understanding yet? An empirical study of GPT-4o's image generation ability
Ning Li, Jingran Zhang, Justin Cui
Human Understanding OpenAI Codex Image Generation Study Feature Abstract Reasoning Multimodal Generation Fine Grained GPT 4 Multimodal GPT

March 3, 2025

Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language Models via Mixture-of-LoRAs
Abdelrahman Abouelenin, Atabak Ashfaq, Adam Atkinson, Hany Awadalla, Nguyen Bach, Jianmin Bao, Alon Benhaim, Martin Cai, Vishrav Chaudhary+64
Microsoft
Multimodal Model Multimodal GPT Phi 3 Full Model Embracing CompAct Sequence Generation

November 27, 2024

The importance of visual modelling languages in generative software engineering
Roberto Rossi
Use Case Modeling Language Importance Aware Position Engineering Generative Artificial Intelligence Multimodal GPT Natural Language Fundamental Diagram

October 28, 2024

NeuGPT: Unified multi-modal Neural GPT
Yiqian Yang, Yiqun Duan, Hyejeong Jo, Qiang Zhang, Renjing Xu, Oiwi Parker Jones, Xuming Hu, Chin-teng Lin, Hui Xiong
Neural Recording Multimodal GPT Multi Modality Neuron Device Neural Signal

July 24, 2024

Testing Large Language Models on Driving Theory Knowledge and Skills for Connected Autonomous Vehicles
Zuoyin Tang, Jianhua He, Dashuai Pei, Kezhong Liu, Tao Gao
Theoretical Understanding Multimodal GPT LLM Model Autonomous Driving Robust Skill Connected Autonomous Vehicle Open Source LLM Autonomous Vehicle

June 24, 2024

DreamBench++: A Human-Aligned Benchmark for Personalized Image Generation
Yuang Peng, Yuxin Cui, Haomiao Tang, Zekun Qi, Runpei Dong, Jing Bai, Chunrui Han, Zheng Ge, Xiangyu Zhang, Shu-Tao Xia
Personalized Image Generation Human Aligned Benchmark Human Evaluation Generative Model Multimodal GPT

June 26, 2023

Large Multimodal Models: Notes on CVPR 2023 Tutorial
Chunyuan Li
Short Note Multimodal GPT Large Multimodal Model Tutorial Review Vision and Language

May 8, 2023

MultiModal-GPT: A Vision and Language Model for Dialogue with Humans
Tao Gong, Chengqi Lyu, Shilong Zhang, Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo, Kai Chen
Dialogue Utterance Language Model Multi Modal Instruction Real Human Visual Instruction Vision Paper Multimodal GPT

May 7, 2023

X-LLM: Bootstrapping Advanced Large Language Models by Treating Multi-Modalities as Foreign Languages
Feilong Chen, Minglun Han, Haozhi Zhao, Qingyang Zhang, Jing Shi, Shuang Xu, Bo Xu
Large Language Model Synthetic Multi Modal Dataset Different Language Advanced Large Language Model Multimodal GPT Multi Modality

April 17, 2023

Visual Instruction Tuning
Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee
Visual Instruction Tuning High Quality Instruction Data Instruction Tuning Multimodal GPT