Bilingual Multimodal

Bilingual multimodal research focuses on developing large language models (LLMs) capable of understanding and processing both textual and visual information in multiple languages. Current efforts concentrate on creating and utilizing large bilingual datasets to train models, employing techniques like contrastive learning and incorporating visual receptors to enhance image-text alignment. These advancements are improving performance on complex tasks like scientific problem-solving and chemical reasoning, demonstrating the potential for broader applications in scientific research and beyond.

Papers

October 17, 2024

Parameter-efficient Adaptation of Multilingual Multimodal Models for Low-resource ASR
Abhishek Gupta, Amruta Parulekar, Sameep Chattopadhyay, Preethi Jyothi
Automatic Speech Recognition Parameter Efficient Adaptation Multilingual Multimodal Best Effort Adaptation Bilingual Multimodal

August 14, 2024

ChemVLM: Exploring the Power of Multimodal Large Language Models in Chemistry Area
Junxian Li, Di Zhang, Xunzhi Wang, Zeying Hao, Jingdi Lei, Qian Tan, Cai Zhou, Wei Liu, Yaotian Yang, Xinrui Xiong, Weiyun Wang, Zhe Chen, Wenhai Wang, Wei Li, Shufei Zhang, Mao Su, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou
Multimodal Large Language Model Vision Paper Human Understanding Plain Sight Chemical Knowledge Chemical Domain Chemical Structure Recognition Bilingual Multimodal

March 18, 2024

X-LLaVA: Optimizing Bilingual Large Vision-Language Alignment
Dongjae Shin, Hyeonseok Lim, Inho Won, Changsu Choi, Minjun Kim, Seungwoo Song, Hangyeol Yoo, Sangmin Kim, Kyungtae Lim
Large Language Model Large Multimodal Model Multimodal Model Multilingual LLM Bilingual Multimodal

February 21, 2024

OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems
Chaoqun He, Renjie Luo, Yuzhuo Bai, Shengding Hu, Zhen Leng Thai, Junhao Shen, Jinyi Hu, Xu Han, Yujie Huang, Yuxiang Zhang, Jie Liu, Lei Qi, Zhiyuan Liu, Maosong Sun
Large Multimodal Model Artificial General Intelligence Challenging Benchmark Multimodal Problem Mathematical Olympiad Scientific Benchmark Bilingual Multimodal

August 24, 2023

Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, Jingren Zhou
Vision Language Model Localization Focus Human Understanding Dialogue Benchmark Qwen Audio Bilingual Multimodal

March 28, 2022

Large-scale Bilingual Language-Image Contrastive Learning
Byungsoo Ko, Geonmo Gu
Contrastive Learning Large Multimodal Model Multimodal Model Bilingual Data Bilingual Multimodal

Bilingual Multimodal

Papers

Parameter-efficient Adaptation of Multilingual Multimodal Models for Low-resource ASR

ChemVLM: Exploring the Power of Multimodal Large Language Models in Chemistry Area

X-LLaVA: Optimizing Bilingual Large Vision-Language Alignment

OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems

Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

Large-scale Bilingual Language-Image Contrastive Learning