Multimodal Task

Multimodal tasks involve integrating information from multiple sources like text, images, and audio to perform complex reasoning and generation. Current research focuses on developing and evaluating large multimodal models (LLMs) using techniques like next-token prediction, prompt tuning, and mixture-of-experts architectures to improve efficiency and performance across diverse tasks, including visual question answering and image captioning. These advancements are significant for improving the capabilities of AI systems in various fields, particularly those requiring the interpretation and generation of multimodal data, such as healthcare and insurance. Addressing challenges like hallucination and improving the explainability of these models remains a key focus.

Papers

September 7, 2023

FLM-101B: An Open LLM and How to Train It with $100K Budget
Xiang Li, Yiqun Yao, Xin Jiang, Xuezhi Fang, Xuying Meng, Siqi Fan, Peng Han, Jing Li, Li Du, Bowen Qin, Zheng Zhang, Aixin Sun, Yequan Wang
Large Language Model NLP Field Multimodal Task Open Source LLM LLM Training Computational Cost Local Authority Budget

August 4, 2023

MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities
Weihao Yu, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Kevin Lin, Zicheng Liu, Xinchao Wang, Lijuan Wang
Large Multimodal Model Evaluation Metric Evaluation Benchmark Multimodal Task LLM Based Evaluation

July 30, 2023

UnIVAL: Unified Model for Image, Video, Audio and Language Tasks
Mustafa Shukor, Corentin Dancette, Alexandre Rame, Matthieu Cord
Multimodal Model Multimodal Learning Source Video Audio Driven Multimodal Task Unified Model Language Task

June 30, 2023

SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs
Lijun Yu, Yong Cheng, Zhiruo Wang, Vivek Kumar, Wolfgang Macherey, Yanping Huang, David A. Ross, Irfan Essa, Yonatan Bisk, Ming-Hsuan Yang, Kevin Murphy, Alexander G. Hauptmann, Lu Jiang
Token Level Multimodal Task Image Understanding Multimodal Generation Semantic Pyramid

June 23, 2023

June 18, 2023

MIR-GAN: Refining Frame-Level Modality-Invariant Representations with Adversarial Network for Audio-Visual Speech Recognition
Yuchen Hu, Chen Chen, Ruizhe Li, Heqing Zou, Eng Siong Chng
Adversarial Learning Multimodal Task Audio Visual Speech Recognition Modality Invariant Multimodal Signal Multi Modality Fusion Tai Gan

June 8, 2023

Factorized Contrastive Learning: Going Beyond Multi-view Redundancy
Paul Pu Liang, Zihao Deng, Martin Ma, James Zou, Louis-Philippe Morency, Ruslan Salakhutdinov
Contrastive Learning Multimodal Task Multimodal Self Supervised Learning

May 26, 2023

BiomedGPT: A Unified and Generalist Biomedical Generative Pre-trained Transformer for Vision, Language, and Multimodal Tasks
Kai Zhang, Jun Yu, Eashan Adhikarla, Rong Zhou, Zhiling Yan, Yixin Liu, Zhengliang Liu, Lifang He, Brian Davison, Xiang Li, Hui Ren, Sunyang Fu, James Zou, Wei Liu, Jing Huang, Chen Chen, Yuyin Zhou, Tianming Liu, Xun Chen, Yong Chen, Quanzheng Li, Hongfang Liu, Lichao Sun
Vision Language Vision Paper Generative Pre Trained Transformer Unified Alignment Multimodal Task Modality Specific Medical AI Biomedical Task

May 25, 2023

ChatBridge: Bridging Modalities with Large Language Model as a Language Catalyst
Zijia Zhao, Longteng Guo, Tongtian Yue, Sihan Chen, Shuai Shao, Xinxin Zhu, Zehuan Yuan, Jing Liu
Large Language Model Zero Shot Different Modality Multimodal Input Multimodal Task Multimodal Instruction

May 23, 2023

i-Code Studio: A Configurable and Composable Framework for Integrative AI
Yuwei Fang, Mahmoud Khademi, Chenguang Zhu, Ziyi Yang, Reid Pryzant, Yichong Xu, Yao Qian, Takuya Yoshioka, Lu Yuan, Michael Zeng, Xuedong Huang
Zero Shot Artificial General Intelligence Multimodal Task Multimodal Agent Composable Framework Jim Code

May 17, 2023

Evaluating Object Hallucination in Large Vision-Language Models
Yifan Li, Yifan Du, Kun Zhou, Jinpeng Wang, Wayne Xin Zhao, Ji-Rong Wen
Large Vision Language Model Multimodal Task Hallucination Evaluation Object Hallucination

April 11, 2023

MoMo: A shared encoder Model for text, image and multi-Modal representations
Rakesh Chada, Zhaoheng Zheng, Pradeep Natarajan
Text Modality Image Text Pair Multimodal Task Multimodal Benchmark Multi Modal Representation Encoder Model Encoder Layer

March 29, 2023

MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks
Weicheng Kuo, AJ Piergiovanni, Dahun Kim, Xiyang Luo, Ben Caine, Wei Li, Abhijit Ogale, Luowei Zhou, Andrew Dai, Zhifeng Chen, Claire Cui, Anelia Angelova
Vision Language Task Joint Learning Multimodal Task Contrastive Method Video Language Task

March 10, 2023

Single-branch Network for Multimodal Training
Muhammad Saad Saeed, Shah Nawaz, Muhammad Haris Khan, Muhammad Zaigham Zaheer, Karthik Nandakumar, Muhammad Haroon Yousaf, Arif Mahmood
Cross Modal Retrieval Multimodal Task Multi Modal Training Multimodal Problem Face Voice Branch Network Multimodal Application

January 23, 2023

Zorro: the masked multimodal transformer
Adrià Recasens, Jason Lin, Joāo Carreira, Drew Jaegle, Luyu Wang, Jean-baptiste Alayrac, Pauline Luc, Antoine Miech, Lucas Smaira, Ross Hemsley, Andrew Zisserman
Audio Visual Multimodal Transformer Multimodal Task Contrastive Pre Training Multimodal Processing Audio Visual Model

December 21, 2022

MultiInstruct: Improving Multi-Modal Zero-Shot Learning via Instruction Tuning
Zhiyang Xu, Ying Shen, Lifu Huang
Zero Shot Instruction Tuning Multimodal Task Instruction Dataset Multimodal Instruction

December 15, 2022

December 1, 2022

Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis
Odysseas S. Chlapanis, Georgios Paraskevopoulos, Alexandros Potamianos
Sentiment Analysis Multimodal Phenomenon Multimodal Task BERT Embeddings BERT Architecture Multimodal BERT Layer Fusion