Semantic Alignment

Semantic alignment focuses on aligning representations from different modalities (e.g., text, images, audio, video) to enable cross-modal understanding and tasks like retrieval, generation, and classification. Current research emphasizes developing novel model architectures and training objectives, such as contrastive learning, variational autoencoders, and transformer-based approaches, to improve the accuracy and efficiency of semantic alignment across diverse data types. This work is crucial for advancing multimodal learning and has significant implications for applications ranging from improved search engines and video understanding to more effective medical image analysis and sign language recognition.

Papers

August 23, 2024

Semantic Alignment for Multimodal Large Language Models
Tao Wu, Mengze Li, Jingyuan Chen, Wei Ji, Wang Lin, Jinyang Gao, Kun Kuang, Zhou Zhao, Fei Wu
Large Language Model Multimodal Large Language Model Multi Modal Large Language Model Semantic Alignment Multi Modal Instruction

July 29, 2024

Overview of PerpectiveArg2024: The First Shared Task on Perspective Argument Retrieval
Neele Falk, Andreas Waldis, Iryna Gurevych
New Perspective Semantic Alignment Spoken Argumentation Target Argument

July 19, 2024

HOTS3D: Hyper-Spherical Optimal Transport for Semantic Alignment of Text-to-3D Generation
Zezeng Li, Weimin Wang, WenHai Li, Na Lei, Xianfeng Gu
Optimal Transport 3D Shape Text to 3D Generation Semantic Alignment 3D Shape Generation 3D Content Generation StarCraft II

July 18, 2024

SA-DVAE: Improving Zero-Shot Skeleton-Based Action Recognition by Disentangled Variational Autoencoders
Sheng-Wei Li, Zi-Xiang Wei, Wei-Jie Chen, Yi-Hsin Yu, Chih-Yuan Yang, Jane Yung-jen Hsu
Action Recognition Variational Autoencoder Skeleton Based Action Recognition Semantic Alignment Multimodal Variational

June 27, 2024

SALVe: Semantic Alignment Verification for Floorplan Reconstruction from Sparse Panoramas
John Lambert, Yuguang Li, Ivaylo Boyadzhiev, Lambert Wixson, Manjunath Narayana, Will Hutchcroft, James Hays, Frank Dellaert, Sing Bing Kang
Semantic Alignment Pose Graph Panorama Image Adjacency Hopping Floorplan Reconstruction

June 19, 2024

Synchronous Faithfulness Monitoring for Trustworthy Retrieval-Augmented Generation
Di Wu, Jia-Chen Gu, Fan Yin, Nanyun Peng, Kai-Wei Chang
Retrieval Augmented Generation Retrieval Augmented Language Model Semantic Alignment

June 9, 2024

Set-CLIP: Exploring Aligned Semantic From Low-Alignment Multimodal Data Through A Distribution View
Zijia Song, Zelin Zang, Yelin Wang, Guozheng Yang, Kaicheng yu, Wanyu Chen, Miaoyu Wang, Stan Z. Li
Multimodal Data Multimodal Fusion Semantic Description Semantic Alignment Multimodal Alignment Soft Alignment

May 31, 2024

MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition
Weichao Zhao, Hezhen Hu, Wengang Zhou, Yunyao Mao, Min Wang, Houqiang Li
Supervised Autoencoder Sign Language Recognition Semantic Alignment Global Semantic Motion Aware Motion Cue Sign Language Sequence Motif Editing

May 21, 2024

Text-Video Retrieval with Global-Local Semantic Consistent Learning
Haonan Zhang, Pengpeng Zeng, Lianli Gao, Jingkuan Song, Yihang Duan, Xinyu Lyu, Hengtao Shen
Fine Grained Video Text Retrieval Semantic Alignment Text Video Pair

May 10, 2024

HC$^2$L: Hybrid and Cooperative Contrastive Learning for Cross-lingual Spoken Language Understanding
Bowen Xing, Ivor W. Tsang
Contrastive Learning Spoken Language Understanding Semantic Alignment Zero Shot Cross Lingual

May 3, 2024

Evaluating Large Language Models for Structured Science Summarization in the Open Research Knowledge Graph
Vladyslav Nechakhin, Jennifer D'Souza, Steffen Eger
Semantic Alignment Manual Annotation Scientific Summarization

May 2, 2024

Technical Report of NICE Challenge at CVPR 2024: Caption Re-ranking Evaluation Using Ensembled CLIP and Consensus Scores
Kiyoon Jeong, Woojun Lee, Woongchan Nam, Minjeong Ma, Pilsung Kang
Zero Shot Single CLIP Semantic Alignment CLIP Score Captioning Metric Consensus Score

April 19, 2024

Exploring Interactive Semantic Alignment for Efficient HOI Detection with Vision-language Model
Jihao Dong, Renjie Pan, Hua Yang
Vision Language Model Human Object Interaction Semantic Alignment Human Object Pair

April 17, 2024

A Semantic Segmentation-guided Approach for Ground-to-Aerial Image Matching
Francesco Pro, Nikolaos Dionelis, Luca Maiano, Bertrand Le Saux, Irene Amerini
Satellite Image Semantic Description Semantic Alignment Image Matching Ground Level

April 11, 2024

Model-based Cleaning of the QUILT-1M Pathology Dataset for Text-Conditional Image Synthesis
Marc Aubreville, Jonathan Ganz, Jonas Ammeling, Christopher C. Kaltenecker, Christof A. Bertram
Text to Image Image Text Pair Semantic Alignment Image Fidelity

March 11, 2024

SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with Auto-Generated Data
Jialu Li, Jaemin Cho, Yi-Lin Sung, Jaehong Yoon, Mohit Bansal
LeArning Abstract Text to Image Image Text Pair Image Text Semantic Alignment

March 8, 2024

ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment
Xiwei Hu, Rui Wang, Yixiao Fang, Bin Fu, Pei Cheng, Gang Yu
Large Language Model Diffusion Model Text to Image Diffusion Model Text to Image Generation Text to Image Model Prompt Learning Semantic Alignment Structure Guided Prompt

March 5, 2024

What do we learn from inverting CLIP models?
Hamid Kazemi, Atoosa Chegini, Jonas Geiping, Soheil Feizi, Tom Goldstein
Complex Prompt Semantic Alignment CLIP Model Model Inversion

March 4, 2024

PLACE: Adaptive Layout-Semantic Fusion for Semantic Image Synthesis
Zhengyao Lv, Yuxiang Wei, Wangmeng Zuo, Kwan-Yee K. Wong
Semantic Alignment Semantic Image Synthesis Pre Trained Text to Image Feature Preservation Semantic Layout

January 3, 2024

Multimodal self-supervised learning for lesion localization
Hao Yang, Hong-Yu Zhou, Cheng Li, Weijian Huang, Jiarun Liu, Yong Liang, Shanshan Wang
Multimodal Phenomenon Semantic Alignment Lesion Localization

Semantic Alignment

Papers

Semantic Alignment for Multimodal Large Language Models

Overview of PerpectiveArg2024: The First Shared Task on Perspective Argument Retrieval

HOTS3D: Hyper-Spherical Optimal Transport for Semantic Alignment of Text-to-3D Generation

SA-DVAE: Improving Zero-Shot Skeleton-Based Action Recognition by Disentangled Variational Autoencoders

SALVe: Semantic Alignment Verification for Floorplan Reconstruction from Sparse Panoramas

Synchronous Faithfulness Monitoring for Trustworthy Retrieval-Augmented Generation

Set-CLIP: Exploring Aligned Semantic From Low-Alignment Multimodal Data Through A Distribution View

MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition

Text-Video Retrieval with Global-Local Semantic Consistent Learning

HC$^2$L: Hybrid and Cooperative Contrastive Learning for Cross-lingual Spoken Language Understanding

Evaluating Large Language Models for Structured Science Summarization in the Open Research Knowledge Graph

Technical Report of NICE Challenge at CVPR 2024: Caption Re-ranking Evaluation Using Ensembled CLIP and Consensus Scores

Exploring Interactive Semantic Alignment for Efficient HOI Detection with Vision-language Model

A Semantic Segmentation-guided Approach for Ground-to-Aerial Image Matching

Model-based Cleaning of the QUILT-1M Pathology Dataset for Text-Conditional Image Synthesis

SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with Auto-Generated Data

ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment

What do we learn from inverting CLIP models?

PLACE: Adaptive Layout-Semantic Fusion for Semantic Image Synthesis

Multimodal self-supervised learning for lesion localization