Visual Embeddings

Visual embeddings represent images and videos as numerical vectors, aiming to capture their semantic content for various downstream tasks like image classification, video retrieval, and question answering. Current research focuses on improving the quality and robustness of these embeddings, often leveraging large language models (LLMs) and techniques like prompt learning, contrastive learning, and multi-modal fusion to better align visual and textual information. This work is significant because effective visual embeddings are crucial for enabling advanced AI applications that require understanding and reasoning about visual data, impacting fields ranging from computer vision to natural language processing.

Papers

November 13, 2023

SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models
Ziyi Lin, Chris Liu, Renrui Zhang, Peng Gao, Longtian Qiu, Han Xiao, Han Qiu, Chen Lin, Wenqi Shao, Keqin Chen, Jiaming Han, Siyuan Huang, Yichi Zhang, Xuming He, Hongsheng Li, Yu Qiao
Large Language Model Language Model New Task Multi Modal Large Language Model Balancing Weight Vision Language Alignment Visual Embeddings

July 10, 2023

Text Descriptions are Compressive and Invariant Representations for Visual Learning
Zhili Feng, Anna Bair, J. Zico Kolter
Vision Language Model Invariant Representation Visual Feature Text Description Visual Learning Visual Embeddings Image Class

May 12, 2023

IMAGINATOR: Pre-Trained Image+Text Joint Embeddings using Word-Level Grounding of Images
Varuna Krishna, S Suryavardan, Shreyash Mishra, Sathyanarayanan Ramamoorthy, Parth Patwa, Megha Chakraborty, Aman Chadha, Amitava Das, Amit Sheth
Word Embeddings Language Grounding Visual Embeddings Joint Image Text

April 30, 2023

Deep Learning Based Multimodal with Two-phase Training Strategy for Daily Life Video Classification
Lam Pham, Trang Le, Cam Le, Dat Ngo, Weissenfeld Axel, Alexander Schindler
Deep Learning Multimodal Phenomenon Video Classification Audio Data Audio Embeddings Two Stage Training Visual Embeddings Multimodal System

April 5, 2023

VicTR: Video-conditioned Text Representations for Activity Recognition
Kumara Kahatapitiya, Anurag Arnab, Arsha Nagrani, Michael S. Ryoo
Vision Language Model Activity Recognition Video Text Visual Embeddings Contrastive Factor Analysis

January 11, 2023

EXIF as Language: Learning Cross-Modal Associations Between Images and Camera Metadata
Chenhao Zheng, Ayush Shrivastava, Andrew Owens
Human Language Cross Modal Visual Representation Image Patch Image Forensics Visual Embeddings

November 18, 2022

Impact of visual assistance for automated audio captioning
Wim Boes, Hugo Van hamme
Global Impact Audio Captioning Sound Event Detection Video Data Visual Instruction Visual Embeddings Captioning Metric

May 17, 2022

Disentangling Visual Embeddings for Attributes and Objects
Nirat Saini, Khoi Pham, Abhinav Shrivastava
Jina Embeddings Arbitrary Object Rich Attribute Compositional Zero Shot Learning Agnostic Learning Visual Embeddings Attribute Recognition Attribute Value Pair

January 3, 2022

Semantically Grounded Visual Embeddings for Zero-Shot Learning
Shah Nawaz, Jacopo Cavazza, Alessio Del Bue
Zero Shot Zero Shot Learning Semantic Embeddings Joint Embedding Visual Embeddings

November 24, 2021

ViCE: Improving Dense Representation Learning by Superpixelization and Contrasting Cluster Assignment
Robin Karlsson, Tomoki Hayashi, Keisuke Fujii, Alexander Carballo, Kento Ohtani, Kazuya Takeda
Self Supervised Learning Visual Representation Visual Concept Adjacent Superpixels Semantic Segmentation Benchmark Dense Representation Visual Embeddings Cluster Assignment

Visual Embeddings

Papers

SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models

Text Descriptions are Compressive and Invariant Representations for Visual Learning

IMAGINATOR: Pre-Trained Image+Text Joint Embeddings using Word-Level Grounding of Images

Deep Learning Based Multimodal with Two-phase Training Strategy for Daily Life Video Classification

VicTR: Video-conditioned Text Representations for Activity Recognition

EXIF as Language: Learning Cross-Modal Associations Between Images and Camera Metadata

Impact of visual assistance for automated audio captioning

Disentangling Visual Embeddings for Attributes and Objects

Semantically Grounded Visual Embeddings for Zero-Shot Learning

ViCE: Improving Dense Representation Learning by Superpixelization and Contrasting Cluster Assignment