Multimodal AI

Multimodal AI focuses on creating systems that can understand and integrate information from multiple sources like text, images, audio, and video, aiming to achieve more comprehensive and human-like intelligence. Current research emphasizes developing robust model architectures, such as Mixture-of-Experts (MoE) and transformer-based models, often pre-trained on massive datasets and fine-tuned for specific tasks, including visual question answering and multimodal generation. This field is significant because it pushes the boundaries of AI capabilities, leading to advancements in various applications, from assistive robotics and medical diagnosis to improved search and information retrieval systems. However, challenges remain in addressing biases present in training data and ensuring the reliability and explainability of these complex systems.

Papers

October 9, 2024

ETA: Evaluating Then Aligning Safety of Vision Language Models at Inference Time
Yi Ding, Bolian Li, Ruqi Zhang
Vision Language Model Adversarial Input Inference Time Multimodal AI Temporal Alignment Safety Alignment Modal Attack Estimated Time of Arrival

October 8, 2024

Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond
Soyeon Caren Han, Feiqi Cao, Josiah Poon, Roberto Navigli
Multimodal Large Language Model Human Language Large Multimodal Model Audio Driven Sensor System Multimodal AI Hyper Tune Multimodal Analysis

October 4, 2024

STREAMS: An Assistive Multimodal AI Framework for Empowering Biosignal Based Robotic Controls
Ali Rabiee, Sima Ghafoori, Xiangyu Bai, Sarah Ostadabbas, Reza Abiri
End to End Self Training Robot Control Assistive Robot Multimodal AI Link Stream End Effector Diverse Biosignals

September 28, 2024

CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling
Jihai Zhang, Xiaoye Qu, Tong Zhu, Yu Cheng
Expert Knowledge Contrastive Language Image Multimodal AI Affinity Diversification

September 27, 2024

Emu3: Next-Token Prediction is All You Need
Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo, Quan Sun, Yufeng Cui, Jinsheng Wang, Fan Zhang, Yueze Wang, Zhen Li, Qiying Yu, Yingli Zhao, Yulong Ao, Xuebin Min, Tao Li, Boya Wu, Bo Zhao, Bowen Zhang, Liangdong Wang, Guang Liu, Zheqi He, Xi Yang, Jingjing Liu, Yonghua Lin, Tiejun Huang, Zhongyuan Wang
Multimodal Task Next Token Prediction Multimodal AI Multimodal Sequence

September 20, 2024

Failures in Perspective-taking of Multimodal AI Systems
Bridget Leonard, Kristin Woodard, Scott O. Murray
Synthesized View Multimodal AI Leg Failure Spatial Representation Spatial Cognition

September 4, 2024

MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark
Xiang Yue, Tianyu Zheng, Yuansheng Ni, Yubo Wang, Kai Zhang, Shengbang Tong, Yuxuan Sun, Ming Yin, Botao Yu, Ge Zhang, Huan Sun, Yu Su, Wenhu Chen, Graham Neubig
Multimodal Model Reasoning Capability Multimodal Understanding Multimodal AI

August 25, 2024

Tangram: Benchmark for Evaluating Geometric Element Recognition in Large Multimodal Models
Chao Zhang, Jiamin Tang, Jing Xiao
Large Multimodal Model Mathematical Reasoning Multimodal AI Challenging Benchmark Exclusive Square Activation Geometry Processing

August 23, 2024

Examining the Commitments and Difficulties Inherent in Multimodal Foundation Models for Street View Imagery
Zhenyuan Yang, Xuhui Lin, Qinyi He, Ziye Huang, Zhengliang Liu, Hanqi Jiang, Peng Shu, Zihao Wu, Yiwei Li, Stephen Law, Gengchen Mai, Tianming Liu, Tao Yang
Computer Vision Technical Challenge Indoor Environment Street View Multimodal Foundation Model Multimodal AI CoMMIT Selection

August 7, 2024

MoExtend: Tuning New Experts for Modality and Task Extension
Shanshan Zhong, Shanghua Gao, Zhongzhan Huang, Wushao Wen, Marinka Zitnik, Pan Zhou
Multimodal Data Related Task Different Modality Multimodal AI Vision Language Understanding Multimodal Capability Modality Adaptation

August 4, 2024

Dataset Scale and Societal Consistency Mediate Facial Impression Bias in Vision-Language AI
Robert Wolfe, Aayushi Dangol, Alexis Hiniker, Bill Howe
Vision Language Model Multimodal AI Facial Impression Bias

July 31, 2024

MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts
Xi Victoria Lin, Akshat Shrivastava, Liang Luo, Srinivasan Iyer, Mike Lewis, Gargi Ghosh, Luke Zettlemoyer, Armen Aghajanyan
Mixture Component Mixture of Expert Modality Specific Multimodal AI Effective Fusion Multi Modal Pre Training Modality Aware

July 11, 2024

CAR-MFL: Cross-Modal Augmentation by Retrieval for Multimodal Federated Learning with Missing Modalities
Pranav Poudel, Prashant Shrestha, Sanskar Amgain, Yash Raj Shrestha, Prashnna Gyawali, Binod Bhattarai
Federated Learning Cross Modal App to App Retrieval Missing Modality Multimodal AI Multimodal Benchmark

July 5, 2024

Smart Vision-Language Reasoners
Denisa Roberts, Lucas Roberts
Vision Language Model Multimodal Representation Human Reasoning Multimodal Reasoning Multimodal AI Vision Language Reasoning

June 30, 2024

TrialBench: Multi-Modal Artificial Intelligence-Ready Clinical Trial Datasets
Jintai Chen, Yaojun Hu, Yue Wang, Yingzhou Lu, Xu Cao, Miao Lin, Hongxia Xu, Jian Wu, Cao Xiao, Jimeng Sun, Lucas Glass, Kexin Huang, Marinka Zitnik, Tianfan Fu
Clinical Trial Multimodal AI

June 27, 2024

Fairness and Bias in Multimodal AI: A Survey
Tosin Adewumi, Lama Alkhaled, Namrata Gurung, Goya van Boven, Irene Pagliai
Artificial Intelligence Timely Survey Procedural Fairness Absolute Stance Bias Large Multimodal Model Multimodal AI

June 19, 2024

June 13, 2024

Explore the Limits of Omni-modal Pretraining at Scale
Yiyuan Zhang, Handong Li, Jing Liu, Xiangyu Yue
Visual Analogue Scale Multimodal Learning Continuum Limit Multimodal AI Multimodal Context Cross Modal Understanding

June 10, 2024

CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark
David Romero, Chenyang Lyu, Haryo Akbarianto Wibowo, Teresa Lynn, Injy Hamed, Aditya Nanda Kishore, Aishik Mandal, Alina Dragonetti, Artem Abzaliev, Atnafu Lambebo Tonja, Bontu Fufa Balcha, Chenxi Whitehouse, Christian Salamea, Dan John Velasco, David Ifeoluwa Adelani, David Le Meur, Emilio Villa-Cueva, Fajri Koto, Fauzan Farooqui, Frederico Belcavello, Ganzorig Batnasan, Gisela Vallejo, Grainne Caulfield, Guido Ivetta, Haiyue Song, Henok Biadglign Ademtew, Hernán Maina, Holy Lovenia, Israel Abebe Azime, Jan Christian Blaise Cruz, Jay Gala, Jiahui Geng, Jesus-German Ortiz-Barajas, Jinheon Baek, Jocelyn Dunstan, Laura Alonso Alemany, Kumaranage Ravindu Yasas Nagasinghe, Luciana Benotti, Luis Fernando D'Haro, Marcelo Viridiano, Marcos Estecha-Garitagoitia, Maria Camila Buitrago Cabrera, Mario Rodríguez-Cantelar, Mélanie Jouitteau, Mihail Mihaylov, Mohamed Fazli Mohamed Imam, Muhammad Farid Adilazuarda, Munkhjargal Gochoo, Munkh-Erdene Otgonbold, Naome Etori, Olivier Niyomugisha, Paula Mónica Silva, Pranjal Chitale, Raj Dabre, Rendi Chevi, Ruochen Zhang, Ryandito Diandaru, Samuel Cahyawijaya, Santiago Góngora, Soyeong Jeong, Sukannya Purkayastha, Tatsuki Kuribayashi, Teresa Clifford, Thanmay Jayakumar, Tiago Timponi Torrent, Toqeer Ehsan, Vladimir Araujo, Yova Kementchedjhieva, Zara Burzo, Zheng Wei Lim, Zheng Xin Yong, Oana Ignat, Joan Nwatu, Rada Mihalcea, Thamar Solorio, Alham Fikri Aji et al. (34 additional authors not shown) You must enabled JavaScript to view entire author list.
Visual Question Answering Multimodal AI 3d Vqa

Multimodal AI

Papers

ETA: Evaluating Then Aligning Safety of Vision Language Models at Inference Time

Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond

STREAMS: An Assistive Multimodal AI Framework for Empowering Biosignal Based Robotic Controls

CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling

Emu3: Next-Token Prediction is All You Need

Failures in Perspective-taking of Multimodal AI Systems

MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark

Tangram: Benchmark for Evaluating Geometric Element Recognition in Large Multimodal Models

Examining the Commitments and Difficulties Inherent in Multimodal Foundation Models for Street View Imagery

MoExtend: Tuning New Experts for Modality and Task Extension

Dataset Scale and Societal Consistency Mediate Facial Impression Bias in Vision-Language AI

MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts

CAR-MFL: Cross-Modal Augmentation by Retrieval for Multimodal Federated Learning with Missing Modalities

Smart Vision-Language Reasoners

TrialBench: Multi-Modal Artificial Intelligence-Ready Clinical Trial Datasets

Fairness and Bias in Multimodal AI: A Survey

Generative AI Misuse: A Taxonomy of Tactics and Insights from Real-World Data

Towards a multimodal framework for remote sensing image change retrieval and captioning

Explore the Limits of Omni-modal Pretraining at Scale

CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark