Fine Grained Cross Modal Alignment

Fine-grained cross-modal alignment focuses on precisely matching information across different data types, such as images and text, to improve the performance of multimodal systems. Current research emphasizes developing novel architectures and algorithms, including transformer-based models and contrastive learning methods, to achieve more accurate and efficient alignment at the pixel, token, or even sub-word level. This work is crucial for advancing various applications, including image captioning, visual question answering, and video understanding, by enabling more nuanced and contextually aware interpretations of multimodal data. The resulting improvements in cross-modal understanding have significant implications for both scientific understanding and real-world applications.

14papers

Papers

March 30, 2025

CADFormer: Fine-Grained Cross-modal Alignment and Decoding Transformer for Referring Remote Sensing Image Segmentation
Remote Sensing Fine Grained Cross Modal Alignment Fine Grained Transformer Decoder Vision Language Alignment

December 22, 2024

Linguistics-Vision Monotonic Consistent Network for Sign Language Production
Production Incident Cross Modal Semantic Alignment Fine Grained Cross Modal Alignment Sign Language Sign Language Production Monotonic Neural Network

November 18, 2024

Neuron: Learning Context-Aware Evolving Representations for Zero-Shot Skeleton Action Recognition
Skeleton Representation Action Recognition Zero Shot LeArning Abstract Single Neuron Level Meaningful Representation Fine Grained Cross Modal Alignment

September 23, 2024

TS-HTFA: Advancing Time Series Forecasting via Hierarchical Text-Free Alignment with Large Language Models
Cross Modal Knowledge Distillation Time Series Forecasting Modality Alignment Fine Grained Cross Modal Alignment Large Language Model

March 6, 2024

Multi-Grained Cross-modal Alignment for Learning Open-vocabulary Semantic Segmentation from Text Supervision
Open Vocabulary Semantic Segmentation Fine Grained Cross Modal Alignment Multi Grained Contrastive Granularity Alignment Text Supervision

March 1, 2024

Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language Pre-training
Masked Multimodal Vision Language Vision Language Representation Fine Grained Cross Modal Alignment Cross Modal Semantic Alignment

February 28, 2024

G4G:A Generic Framework for High Fidelity Talking Face Generation with Fine-grained Intra-modal Alignment
Fine Grained Cross Modal Alignment Generic Model Face Generation High Fidelity Audio Visual

December 16, 2023

M^2ConceptBase: A Fine-Grained Aligned Concept-Centric Multimodal Knowledge Base
Fine Grained Cross Modal Alignment Fine Grained Large Multi Modal Model Cross Modal Alignment

November 3, 2023

A New Fine-grained Alignment Method for Image-text Matching
Fine Grained Fine Grained Cross Modal Alignment Image Text Matching Image Text Retrieval Aware Fragment

October 8, 2023

Video-Teller: Enhancing Cross-Modal Generation with Fusion and Decoupling
Video Summarization Text to Video Generation Cross Modal Generation Fine Grained Cross Modal Alignment Hybrid Fusion

August 24, 2023

Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language Navigation
Vision and Language Navigation Fine Grained Cross Modal Alignment Cross Modal Alignment Pre Training

August 2, 2023

Contrast-augmented Diffusion Model with Fine-grained Sequence Alignment for Markup-to-Image Generation
Faithful Generation Contrastive Learning Fine Grained Cross Modal Alignment Fine Grained Text to Image Contrastive Diffusion

June 19, 2023

WiCo: Win-win Cooperation of Bottom-up and Top-down Referring Image Segmentation
Bottom Up Framework Object Prior Referring Image Segmentation Long Term Cooperation Complementary Feature Fine Grained Cross Modal Alignment Feature Interaction

January 13, 2023

Text to Point Cloud Localization with Relation-Enhanced Transformer
Location Prediction Fine Grained Cross Modal Alignment Relation Transformer Text Modality Point Cloud Precise Localization Cross Modal Localization

November 14, 2022

On Analyzing the Role of Image for Visual-enhanced Relation Extraction
Fine Grained Cross Modal Alignment Integral Role Knowledge Graph Construction Scene Graph

October 6, 2022

Video Referring Expression Comprehension via Transformer with Content-aware Query
Aware Query Natural Language Expression Fine Grained Cross Modal Alignment Transformer Based Fine Grained

September 28, 2022

TokenFlow: Rethinking Fine-grained Cross-modal Alignment in Vision-Language Retrieval
Fine Grained Cross Modal Alignment Retrieval Benchmark Token Attention Fine Grained

Fine Grained Cross Modal Alignment

Papers

CADFormer: Fine-Grained Cross-modal Alignment and Decoding Transformer for Referring Remote Sensing Image Segmentation

Linguistics-Vision Monotonic Consistent Network for Sign Language Production

Neuron: Learning Context-Aware Evolving Representations for Zero-Shot Skeleton Action Recognition

TS-HTFA: Advancing Time Series Forecasting via Hierarchical Text-Free Alignment with Large Language Models

Multi-Grained Cross-modal Alignment for Learning Open-vocabulary Semantic Segmentation from Text Supervision

Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language Pre-training

G4G:A Generic Framework for High Fidelity Talking Face Generation with Fine-grained Intra-modal Alignment

M^2ConceptBase: A Fine-Grained Aligned Concept-Centric Multimodal Knowledge Base

A New Fine-grained Alignment Method for Image-text Matching

Video-Teller: Enhancing Cross-Modal Generation with Fusion and Decoupling

Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language Navigation

Contrast-augmented Diffusion Model with Fine-grained Sequence Alignment for Markup-to-Image Generation

WiCo: Win-win Cooperation of Bottom-up and Top-down Referring Image Segmentation

Text to Point Cloud Localization with Relation-Enhanced Transformer

On Analyzing the Role of Image for Visual-enhanced Relation Extraction

Video Referring Expression Comprehension via Transformer with Content-aware Query

TokenFlow: Rethinking Fine-grained Cross-modal Alignment in Vision-Language Retrieval