Multi Modal Representation

Multi-modal representation learning aims to create unified representations from diverse data types (e.g., images, text, audio) to improve downstream tasks like object recognition, medical diagnosis, and recommendation systems. Current research focuses on developing effective fusion techniques, often employing transformer architectures, contrastive learning, and graph-based methods to align and integrate information across modalities, addressing challenges like modality gaps and imbalanced contributions. These advancements are significantly impacting various fields by enabling more robust and accurate analyses of complex data, leading to improved performance in applications ranging from healthcare to engineering design.

Papers

May 25, 2023

Dynamic Enhancement Network for Partial Multi-modality Person Re-identification
Aihua Zheng, Ziling He, Zi Wang, Chenglong Li, Jin Tang
Person Re Identification Multi Modal Representation Enhancement Network Vehicle Re Identification

May 13, 2023

Multi-task Paired Masking with Alignment Modeling for Medical Vision-Language Pre-training
Ke Zhang, Yan Yang, Jun Yu, Hanliang Jiang, Jianping Fan, Qingming Huang, Weidong Han
Multi Task Cross Modal Alignment Multi Modal Representation Cross Modal Fusion Erase Based Masking Alignment Model Medical Vision Joint Image Text

May 6, 2023

Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal Structured Representations
Yufeng Huang, Jiji Tang, Zhuo Chen, Rongsheng Zhang, Xinfeng Zhang, Weijie Chen, Zeng Zhao, Zhou Zhao, Tangjie Lv, Zhipeng Hu, Wen Zhang
Pre Trained Vision Language Model Structured Representation Multi Modal Representation Multi Modal Understanding

April 11, 2023

MoMo: A shared encoder Model for text, image and multi-Modal representations
Rakesh Chada, Zhaoheng Zheng, Pradeep Natarajan
Text Modality Image Text Pair Multimodal Task Multimodal Benchmark Multi Modal Representation Encoder Model Encoder Layer

April 5, 2023

Enhancing Multimodal Entity and Relation Extraction with Variational Information Bottleneck
Shiyao Cui, Jiangxia Cao, Xin Cong, Jiawei Sheng, Quangang Li, Tingwen Liu, Jinqiao Shi
Entity Recognition Multimodal Phenomenon Semantic Alignment Multi Modal Representation Variational Information Bottleneck

April 4, 2023

Divided Attention: Unsupervised Multi-Object Discovery with Contextually Separated Slots
Dong Lao, Zhengyang Hu, Francesco Locatello, Yanchao Yang, Stefano Soatto
Optical Flow Conditional Generative Adversarial Network Object Discovery Dual Attention Multi Modal Representation Visual Field Contextual Alignment

April 2, 2023

Multimodal Hyperspectral Image Classification via Interconnected Fusion
Lu Huo, Jiahao Xia, Leijie Zhang, Haimin Zhang, Min Xu
Cross Modal Hyperspectral Image Classification Light Detection and Ranging Multi Modal Representation Fusion Feature

March 15, 2023

MGA: Medical generalist agent through text-guided knowledge transformation
Weijian Huang, Hao Yang, Cheng Li, Mingtong Dai, Rui Yang, Shanshan Wang
Multi Modal Representation Clinical Task

March 6, 2023

ChatGPT is on the Horizon: Could a Large Language Model be Suitable for Intelligent Traffic Safety Research and Applications?
Ou Zheng, Mohamed Abdel-Aty, Dongdong Wang, Zijin Wang, Shengxuan Ding
Large Language Model Financial Application ChatGPT Generated Conversation Multi Modal Representation New Horizon Traffic Safety Intelligent Traffic

February 14, 2023

Multi-modal Machine Learning in Engineering Design: A Review and Future Directions
Binyang Song, Rui Zhou, Faez Ahmed
Narrative Review Multi Modal Cross Modal Future Direction Multi Modal Representation Engineering Design Cross Modality Synthesis Multi Modal Machine Learning

November 24, 2022

Delving into Out-of-Distribution Detection with Vision-Language Representations
Yifei Ming, Ziyang Cai, Jiuxiang Gu, Yiyou Sun, Wei Li, Yixuan Li
Distribution Detection Vision Language Representation Multi Modal Representation Concept Alignment Zero Shot Out of Distribution

October 19, 2022

VTC: Improving Video-Text Retrieval with User Comments
Laura Hanu, James Thewlis, Yuki M. Asano, Christian Rupprecht
Multi Modal Audio Representation Video Text Retrieval Online Comment Multi Modal Representation

October 17, 2022

Contrastive Language-Image Pre-Training with Knowledge Graphs
Xuran Pan, Tianzhu Ye, Dongchen Han, Shiji Song, Gao Huang
Knowledge Graph Pre Training Contrastive Language Image Multi Modal Representation Vision Language Downstream Task Knowledge Anchor

August 23, 2022

Multi-Modal Representation Learning with Self-Adaptive Threshold for Commodity Verification
Chenchen Han, Heng Jia
Representation Space Multi Modal Representation Modal Embeddings Multi Modal Representation Learning Adaptive Threshold Integrity Verification Threshold Network

June 21, 2022

Probing Visual-Audio Representation for Video Highlight Detection via Hard-Pairs Guided Contrastive Learning
Shuaicheng Li, Feng Zhang, Kunlin Yang, Lingbo Liu, Shinan Liu, Jun Hou, Shuai Yi
Contrastive Learning Video Representation Linear Probing Cross Modal Representation Multi Modal Representation Audio Visual Representation Cross Modal Representation Learning Video Highlight Detection

June 1, 2022

Unifying Voxel-based Representation with Transformer for 3D Object Detection
Yanwei Li, Yilun Chen, Xiaojuan Qi, Zeming Li, Jian Sun, Jiaya Jia
Transformer Based 3D Object Detection Individual Representation 3D Detection Anti Unification Multi Modal Representation Modality Fusion

March 7, 2022

Audio-visual Generalised Zero-shot Learning with Cross-modal Attention and Language
Otniel-Bogdan Mercea, Lukas Riesch, A. Sophia Koepke, Zeynep Akata
Human Language Audio Visual Cross Modal Attention Multi Modal Representation Zero Shot Video Audio Visual Generalized Zero Shot

January 15, 2022

Tailor Versatile Multi-modal Learning for Multi-label Emotion Recognition
Yi Zhang, Mingyuan Chen, Jundong Shen, Chongjun Wang
Multi Modal Learning Multi Modal Representation Modality Invariant Multi Label Emotion Label Dependency

January 11, 2022

Music2Video: Automatic Generation of Music Video with fusion of audio and text
Yoonjeon Kim, Joel Jang, Sumin Shin
Generative Model Generative Adversarial Network Text Modality Hybrid Fusion Audio Driven Automatic Generation Multi Modal Representation Music Video

December 17, 2021

Contrastive Vision-Language Pre-training with Limited Resources
Quan Cui, Boyan Zhou, Yu Guo, Weidong Yin, Hao Wu, Osamu Yoshie, Yubo Chen
Contrastive Learning Pre Training Contrastive Vision Language Multi Modal Representation Cross Modal Feature Alignment Limited Resource