Multimodal Feature

Multimodal feature research focuses on integrating information from multiple data sources (e.g., text, images, audio) to create richer, more comprehensive representations for various tasks. Current research emphasizes effective fusion strategies, often employing attention mechanisms, transformers, and graph neural networks to capture inter- and intra-modal relationships, and addressing challenges like modality alignment and handling asynchronous data. This field is significant for improving the accuracy and robustness of applications across diverse domains, including medical diagnosis, emotion recognition, and fake news detection, by leveraging the complementary strengths of different data modalities.

Papers

June 7, 2024

MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers
Tanvir Mahmud, Shentong Mo, Yapeng Tian, Diana Marculescu
Multimodal Feature Modality Alignment

April 25, 2024

Multimodal Information Interaction for Medical Image Segmentation
Xinxin Fan, Lin Liu, Haoran Zhang
Medical Image Segmentation Multimodal Data Multimodal Transformer Multi Modal Feature Multimodal Feature Multimodal Interaction Multimodal Segmentation

April 21, 2024

LMFNet: An Efficient Multimodal Fusion Approach for Semantic Segmentation in High-Resolution Remote Sensing
Tong Wang, Guanzhou Chen, Xiaodong Zhang, Chenxi Liu, Xiaoliang Tan, Jiaqi Wang, Chanjuan He, Wenlin Zhou
Semantic Segmentation Multimodal Feature Multimodal Attention Fusion Module Efficient Multimodal Fusion

March 28, 2024

Single-Shared Network with Prior-Inspired Loss for Parameter-Efficient Multi-Modal Imaging Skin Lesion Classification
Peng Tang, Tobias Lasser
Network Programming Multimodal Feature Skin Cancer Dermoscopic Image Multi Modal Approach Dermoscopy Image Prior Based Loss

March 24, 2024

SDSTrack: Self-Distillation Symmetric Adapter Learning for Multi-Modal Visual Object Tracking
Xiaojun Hou, Jiazheng Xing, Yijie Qian, Yaowei Guo, Shuo Xin, Junhao Chen, Kai Tang, Mengmeng Wang, Zhengkai Jiang, Liang Liu, Yong Liu
Object Tracking Self Distillation Multimodal Feature Multi Modal Tracking Modal Object Tracking Multi Modal Object Tracking

March 21, 2024

MOGAM: A Multimodal Object-oriented Graph Attention Model for Depression Detection
Junyeop Cha, Seoyun Kim, Dongjae Kim, Eunil Park
Multimodal Phenomenon Graph Attention Depression Detection Cross Attention Mechanism Multimodal Feature Multimodal Approach

March 19, 2024

An Aligning and Training Framework for Multimodal Recommendations
Yifan Liu, Kangning Zhang, Xiangyuan Ren, Yanhua Huang, Jiarui Jin, Yingjie Qin, Ruilong Su, Ruiwen Xu, Weinan Zhang
Alignment Problem Multimodal Information Multimodal Feature Training Framework Multimodal Recommendation

March 15, 2024

EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models
Rocktim Jyoti Das, Simeon Emilov Hristov, Haonan Li, Dimitar Iliyanov Dimitrov, Ivan Koychev, Preslav Nakov
Vision Language Model Vision Language Multiple Choice Question Multimodal Feature Exam Document Multilingual Multimodal Benchmark

January 16, 2024

TelME: Teacher-leading Multimodal Fusion Network for Emotion Recognition in Conversation
Taeyang Yun, Hyunkuk Lim, Jeonghwan Lee, Min Song
Emotion Recognition Potential Conversation Outcome Multimodal Feature Cross Modal Knowledge Distillation Emotion Recognition in Conversation Multimodal Fusion Network

December 22, 2023

Joint Self-Supervised and Supervised Contrastive Learning for Multimodal MRI Data: Towards Predicting Abnormal Neurodevelopment
Zhiyuan Li, Hailong Li, Anca L. Ralescu, Jonathan R. Dillman, Mekibib Altaye, Kim M. Cecil, Nehal A. Parikh, Lili He
Multimodal Data Functional Magnetic Resonance Imaging Supervised Contrastive Learning Multimodal Feature Multimodal Deep Learning Neurodevelopmental Disorder

December 15, 2023

MONET: Modality-Embracing Graph Convolutional Network and Target-Aware Attention for Multimedia Recommendation
Yungi Kim, Taeri Kim, Won-Yong Shin, Sang-Wook Kim
Human Attention Graph Convolutional Network GNN Based Multimodal Feature Higher Order Network Item Embeddings Multimedia Recommendation

December 1, 2023

Efficient Multimodal Semantic Segmentation via Dual-Prompt Learning
Shaohua Dong, Yunhe Feng, Qing Yang, Yan Huang, Dongfang Liu, Heng Fan
Semantic Segmentation Multimodal Feature Multimodal Semantic Segmentation

November 11, 2023

MuST: Multimodal Spatiotemporal Graph-Transformer for Hospital Readmission Prediction
Yan Miao, Lequan Yu
Graph Transformer Multimodal Feature Spatiotemporal Feature Patient Readmission Hospital Readmission Prediction

October 23, 2023

Leveraging Image-Text Similarity and Caption Modification for the DataComp Challenge: Filtering Track and BYOD Track
Shuhei Yokoo, Peifei Zhu, Yuchi Ishikawa, Mikihiro Tanaka, Masayoshi Kondo, Hirokatsu Kataoka
Multimodal Feature Multimodal CLIP Web Crawled Data Caption Editing Track Finding

October 3, 2023

Improved Automatic Diabetic Retinopathy Severity Classification Using Deep Multimodal Fusion of UWF-CFP and OCTA Images
Mostafa El Habib Daho, Yihao Li, Rachid Zeghlache, Yapo Cedric Atse, Hugo Le Boité, Sophie Bonnin, Deborah Cosette, Pierre Deman, Laurent Borderie, Capucine Lepicard, Ramin Tadayoni, Béatrice Cochener, Pierre-Henri Conze, Mathieu Lamard, Gwenolé Quellec
Optical Coherence Tomography Multimodal Fusion Diabetic Retinopathy Multimodal Feature Ultra Wide Novel Multimodal

September 3, 2023

End-to-End Learning on Multimodal Knowledge Graphs
W. X. Wilcke, P. Bloem, V. de Boer, R. H. van t Veer
Knowledge Graph Multimodal Information Multimodal Feature End to End Model End to End Learning Multimodal Knowledge Graph

August 21, 2023

Deep Metric Loss for Multimodal Learning
Sehwan Moon, Hyunju Lee
Multimodal Phenomenon Multimodal Model Multimodal Learning Multimodal Dataset Multimodal Feature Metric Learning Loss

August 8, 2023

Revisiting Disentanglement and Fusion on Modality and Context in Conversational Multimodal Emotion Recognition
Bobo Li, Hao Fei, Lizi Liao, Yu Zhao, Chong Teng, Tat-Seng Chua, Donghong Ji, Fei Li
Context Information Multimodal Phenomenon Hybrid Fusion Disentanglement Capability Different Modality Multimodal Feature Multimodal Dialogue Multimodal Context Emotion Recognition in Conversation

July 20, 2023

General Debiasing for Multimodal Sentiment Analysis
Teng Sun, Juntong Ni, Wenjie Wang, Liqiang Jing, Yinwei Wei, Liqiang Nie
Multimodal Sentiment Analysis Multimodal Feature Debiasing Framework Biased Feature Sentiment Information

June 30, 2023

Multiscale Progressive Text Prompt Network for Medical Image Segmentation
Xianjun Han, Qianqian Chen, Zhaoyang Xie, Xuejun Li, Hongyu Yang
Medical Image Segmentation Multi Modal Feature Multimodal Feature Downstream Medical

Multimodal Feature

Papers

MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers

Multimodal Information Interaction for Medical Image Segmentation

LMFNet: An Efficient Multimodal Fusion Approach for Semantic Segmentation in High-Resolution Remote Sensing

Single-Shared Network with Prior-Inspired Loss for Parameter-Efficient Multi-Modal Imaging Skin Lesion Classification

SDSTrack: Self-Distillation Symmetric Adapter Learning for Multi-Modal Visual Object Tracking

MOGAM: A Multimodal Object-oriented Graph Attention Model for Depression Detection

An Aligning and Training Framework for Multimodal Recommendations

EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models

TelME: Teacher-leading Multimodal Fusion Network for Emotion Recognition in Conversation

Joint Self-Supervised and Supervised Contrastive Learning for Multimodal MRI Data: Towards Predicting Abnormal Neurodevelopment

MONET: Modality-Embracing Graph Convolutional Network and Target-Aware Attention for Multimedia Recommendation

Efficient Multimodal Semantic Segmentation via Dual-Prompt Learning

MuST: Multimodal Spatiotemporal Graph-Transformer for Hospital Readmission Prediction

Leveraging Image-Text Similarity and Caption Modification for the DataComp Challenge: Filtering Track and BYOD Track

Improved Automatic Diabetic Retinopathy Severity Classification Using Deep Multimodal Fusion of UWF-CFP and OCTA Images

End-to-End Learning on Multimodal Knowledge Graphs

Deep Metric Loss for Multimodal Learning

Revisiting Disentanglement and Fusion on Modality and Context in Conversational Multimodal Emotion Recognition

General Debiasing for Multimodal Sentiment Analysis

Multiscale Progressive Text Prompt Network for Medical Image Segmentation