Modal Representation

Modal representation focuses on effectively combining information from multiple data sources (modalities) like text, images, and audio to improve the performance of machine learning models. Current research emphasizes developing robust methods for handling missing modalities, efficiently scaling up multimodal analysis for large datasets, and improving the fusion of information from different modalities using architectures like transformers and memory networks. This work has significant implications for various applications, including emotion recognition, content moderation, and scientific discovery, by enabling more accurate and comprehensive analysis of complex data.

Papers

April 18, 2024

Dynamic Modality and View Selection for Multimodal Emotion Recognition with Missing Modalities
Luciana Trinkaus Menon, Luiz Carlos Ribeiro Neduziak, Jean Paul Barddal, Alessandro Lameiras Koerich, Alceu de Souza Britto
View Selection Multimodal Emotion Recognition Cross Attention Mechanism Missing Modality Emotion Prediction Modal Representation

February 7, 2024

Scaling Up LLM Reviews for Google Ads Content Moderation
Wei Qiao, Tushar Dogra, Otilia Stretcu, Yu-Han Lyu, Tiantian Fang, Dongjin Kwon, Chun-Ta Lu, Enming Luo, Yuan Wang, Chih-Chun Chia, Ariel Fuxman, Fangzhou Wang, Ranjay Krishna, Mehmet Tek
Large Language Model Content Moderation Label Propagation LLM Evaluation LLM Model Modal Representation

October 31, 2023

A Transformer-Based Model With Self-Distillation for Multimodal Emotion Recognition in Conversations
Hui Ma, Jian Wang, Hongfei Lin, Bo Zhang, Yijia Zhang, Bo Xu
Emotion Recognition Transformer Based Model Self Distillation Community Conversation Multimodal Emotion Recognition Modality Aware Transformer Emotion Recognition in Conversation Modal Representation

May 31, 2023

ManagerTower: Aggregating the Insights of Uni-Modal Experts for Vision-Language Representation Learning
Xiao Xu, Bei Li, Chenfei Wu, Shao-Yen Tseng, Anahita Bhiwandiwalla, Shachar Rosenman, Vasudev Lal, Wanxiang Che, Nan Duan
Vision Language Cross Modal DCU Insight AQ Cross Modal Alignment Vision Language Representation Modality Aware Modal Representation

April 4, 2022

Multi-modality Associative Bridging through Memory: Speech Sound Recollected from Face Video
Minsu Kim, Joanna Hong, Se Jin Park, Yong Man Ro
Cross Modal Audio Visual Memory Trace Modality Specific Facial Video Memory Network Associative Recall Speech Component Modal Representation

February 7, 2022

Unsupervised physics-informed disentanglement of multimodal data for high-throughput scientific discovery
Nathaniel Trask, Carianne Martinez, Kookjin Lee, Brad Boyce
Variational Inference Multimodal Data Scientific Discovery Unsupervised Setting Physic Informed Modal Representation Cross Modal Generative

Modal Representation

Papers

Dynamic Modality and View Selection for Multimodal Emotion Recognition with Missing Modalities

Scaling Up LLM Reviews for Google Ads Content Moderation

A Transformer-Based Model With Self-Distillation for Multimodal Emotion Recognition in Conversations

ManagerTower: Aggregating the Insights of Uni-Modal Experts for Vision-Language Representation Learning

Multi-modality Associative Bridging through Memory: Speech Sound Recollected from Face Video

Unsupervised physics-informed disentanglement of multimodal data for high-throughput scientific discovery