Modal Embeddings

Modal embeddings represent a crucial area of research focusing on creating unified representations of data from different modalities (e.g., text, images, audio). Current research emphasizes improving the alignment and fusion of these embeddings, often using transformer-based architectures and contrastive learning methods, to address issues like modality gaps and redundancy. This work is significant because effective multimodal embeddings are essential for advancing numerous applications, including improved search systems, more robust anomaly detection, and enhanced zero-shot learning capabilities across various domains.

Papers

June 13, 2023

Contrastive Learning-Based Audio to Lyrics Alignment for Multiple Languages
Simon Durand, Daniel Stoller, Sebastian Ewert
Speech Processing Contrastive Example Modal Embeddings Multiple Language Word Alignment Music Datasets Lyric Alignment Weakly Annotated

May 29, 2023

Improved Probabilistic Image-Text Representations
Sanghyuk Chun
Image Text Matching Modal Embeddings Probabilistic Embeddings Image Text Representation Learning Based Matching

May 2, 2023

MDENet: Multi-modal Dual-embedding Networks for Malware Open-set Recognition
Jingcai Guo, Yuanyuan Xu, Wenchao Xu, Yufeng Zhan, Yuxia Sun, Song Guo
Recognition Rate Open Set Recognition Malware Attack Modal Embeddings Malware Representation Malware Feature

March 27, 2023

Curriculum Learning for Compositional Visual Reasoning
Wafa Aissa, Marin Ferecatu, Michel Crucianu
Visual Question Answering Curriculum Learning Modal Embeddings Neural Module Compositional Visual Reasoning

March 17, 2023

PersonalTailor: Personalizing 2D Pattern Design from 3D Garment Point Clouds
Sauradip Nag, Anran Qi, Xiatian Zhu, Ariel Shamir
Personalized Subject 3D Garment Modal Embeddings Sewing Pattern

October 17, 2022

MoSE: Modality Split and Ensemble for Multimodal Knowledge Graph Completion
Yu Zhao, Xiangrui Cai, Yike Wu, Haiwei Zhang, Ying Zhang, Guoqing Zhao, Ning Jiang
Mixture of Expert Diverse Ensemble Knowledge Graph Completion Modal Embeddings Modality Invariant Relation Representation Modality Specific Prediction

August 23, 2022

Multi-Modal Representation Learning with Self-Adaptive Threshold for Commodity Verification
Chenchen Han, Heng Jia
Representation Space Multi Modal Representation Modal Embeddings Multi Modal Representation Learning Adaptive Threshold Integrity Verification Threshold Network

July 9, 2022

BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid Counterfactual Training for Robust Content-based Image Retrieval
Wenqiao Zhang, Jiannan Guo, Mengze Li, Haochen Shi, Shengyu Zhang, Juncheng Li, Siliang Tang, Yueting Zhuang
Cross Modal Image Retrieval Content Based Image Retrieval Modal Embeddings Fashion Image Retrieval Image Retrieval Task Image Text Representation

April 20, 2022

Transformer Decoders with MultiModal Regularization for Cross-Modal Food Retrieval
Mustafa Shukor, Guillaume Couairon, Asya Grechka, Matthieu Cord
Transformer Decoder Modal Embeddings Unimodal Encoders Image to Recipe Recipe Embeddings

April 4, 2022

An Analysis of Semantically-Aligned Speech-Text Embeddings
Muhammad Huzaifah, Ivan Kukanov
General Analysis Jina Embeddings Cross Modal Semantic Alignment Multi Modal Language Model Modal Embeddings Acoustic Word Embeddings

March 27, 2022

End-to-End Active Speaker Detection
Juan Leon Alcazar, Moritz Cordes, Chen Zhao, Bernard Ghanem
Feature Learning Modal Embeddings Active Speaker Detection

March 24, 2022

Domino: Discovering Systematic Errors with Cross-Modal Embeddings
Sabri Eyuboglu, Maya Varma, Khaled Saab, Jean-Benoit Delbrouck, Christopher Lee-Messer, Jared Dunnmon, James Zou, Christopher Ré
Dimensional Input Modal Embeddings Systematic Error DominO Denoise Coherent Structure Slice Discovery

March 10, 2022

StyleBabel: Artistic Style Tagging and Captioning
Dan Ruta, Andrew Gilbert, Pranav Aggarwal, Naveen Marri, Ajinkya Kale, Jo Briggs, Chris Speed, Hailin Jin, Baldo Faieta, Alex Filipkowski, Zhe Lin, John Collomosse
Fine Grained Generated Caption Modal Embeddings Art Style

March 8, 2022

Geodesic Multi-Modal Mixup for Robust Fine-Tuning
Changdae Oh, Junhyuk So, Hoyoon Byun, YongTaek Lim, Minchul Shin, Jong-June Jeon, Kyungwoo Song
Generalized Geodesic Modal Embeddings Robust Fine Tuning Transferable Neural

February 18, 2022

A Survey of Vision-Language Pre-Trained Models
Yifan Du, Zikang Liu, Junyi Li, Wayne Xin Zhao
Timely Survey Full Model Pre Trained Model Vision Language Multimodal Learning Modal Embeddings Pre Training Task