Large Scale Multimodal Dataset

Large-scale multimodal datasets are revolutionizing artificial intelligence by providing massive collections of paired or aligned data across various modalities like text, images, and video. Current research focuses on developing these datasets for specific domains (e.g., medicine, biodiversity, traffic prediction) and using them to train and evaluate multimodal models, often employing architectures like transformers and graph convolutional networks. These datasets are crucial for advancing AI capabilities in diverse fields, enabling improvements in tasks ranging from medical image analysis and environmental monitoring to more robust content generation and detection.

Papers

August 6, 2024

MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine
Yunfei Xie, Ce Zhou, Lang Gao, Juncheng Wu, Xianhang Li, Hong-Yu Zhou, Sheng Liu, Lei Xing, James Zou, Cihang Xie, Yuyin Zhou
Multimodal Large Language Model Multimodal Data Large Scale Multimodal Dataset Granularity Annotation

June 25, 2024

Arboretum: A Large Multimodal Dataset Enabling AI for Biodiversity
Chih-Hsuan Yang, Benjamin Feuer, Zaki Jubery, Zi K. Deng, Andre Nakkab, Md Zahid Hasan, Shivani Chiranjeevi, Kelly Marshall, Nirmal Baishnab, Asheesh K Singh, Arti Singh, Soumik Sarkar, Nirav Merchant, Chinmay Hegde, Baskar Ganapathysubramanian
Tree Specie Available Datasets Biodiversity Monitoring Biodiversity Loss Large Scale Multimodal Dataset

June 7, 2024

RU-AI: A Large Multimodal Dataset for Machine-Generated Content Detection
Liting Huang, Zhihao Zhang, Yiran Zhang, Xiyue Zhou, Shoujin Wang
Multimodal Dataset Generative AI Model Machine Generated Multimodal Datasets Large Scale Multimodal Dataset

March 8, 2024

BjTT: A Large-scale Multimodal Dataset for Traffic Prediction
Chengyang Zhang, Yong Zhang, Qitan Shao, Jiangtao Feng, Bo Li, Yisheng Lv, Xinglin Piao, Baocai Yin
Traffic Prediction Text Pair Large Scale Multimodal Dataset KG to Text Traffic Generation

August 21, 2023

WanJuan: A Comprehensive Multimodal Dataset for Advancing English and Chinese Large Models
Conghui He, Zhenjiang Jin, Chao Xu, Jiantao Qiu, Bin Wang, Wei Li, Hang Yan, Jiaqi Wang, Dahua Lin
Large Language Model Training Data Large Model Multimodal Dataset High Quality Data Large Scale Multimodal Dataset

June 26, 2023

PTVD: A Large-Scale Plot-Oriented Multimodal Dataset Based on Television Dramas
Chen Li, Xutan Peng, Teng Wang, Yixiao Ge, Mengyang Liu, Xuyuan Xu, Yexin Wang, Ying Shan
Multimodal Phenomenon TV Show Multimodal Analysis Large Scale Multimodal Dataset

March 15, 2023

A large-scale multimodal dataset of human speech recognition
Yao Ge, Chong Tang, Haobo Li, Zikang Zhang, Wenda Li, Kevin Chetty, Daniele Faccio, Qammer H. Abbasi, Muhammad Imran
Speech Recognition Speech Corpus Speech Recording Lip Reading Large Scale Multimodal Dataset

October 25, 2022

S3E: A Large-scale Multimodal Dataset for Collaborative SLAM
Dapeng Feng, Yuhua Qi, Shipeng Zhong, Zhiqiang Chen, Yudu Jiao, Qiming Chen, Tao Jiang, Hongbo Chen
Collaborative Simultaneous Localization Multimodal Future Trajectory Large Scale Multimodal Dataset Collaborative SLAM Heterogeneous Trajectory

August 24, 2022

FashionVQA: A Domain-Specific Visual Question Answering System
Min Wang, Ata Mahjoubfar, Anupama Joshi
Visual Question Answering Visual Language Model 3d Vqa Visual Question Answering Model Large Scale Multimodal Dataset

July 26, 2022

NewsStories: Illustrating articles with visual summaries
Reuben Tan, Bryan A. Plummer, Kate Saenko, JP Lewis, Avneesh Sud, Thomas Leung
Self Supervised Image Text Article Centered Factor Large Scale Multimodal Dataset Summary Worthy Visual

March 16, 2022

Spot the Difference: A Cooperative Object-Referring Game in Non-Perfectly Co-Observable Scene
Duo Zheng, Fandong Meng, Qingyi Si, Hairun Fan, Zipeng Xu, Jie Zhou, Fangxiang Feng, Xiaojie Wang
Qualitative Difference Observable Environment SpOT Robot Visual Dialog Referential Game Multi Goal Large Scale Multimodal Dataset Visual Dialog Task