Visual Modality

Visual modality research focuses on understanding and leveraging visual information in conjunction with other modalities (like text and audio) for various tasks, primarily aiming to improve the accuracy and robustness of machine learning models. Current research emphasizes multimodal fusion techniques, often employing transformer-based architectures and contrastive learning, to effectively integrate visual features with other data types for applications such as image captioning, semantic segmentation, and machine translation. This field is significant because it enables more sophisticated AI systems capable of understanding complex scenes and interactions, with applications ranging from robotics and augmented reality to improved accessibility and content creation.

Papers

December 5, 2023

Visually Grounded Language Learning: a review of language games, datasets, tasks, and models
Alessandro Suglia, Ioannis Konstas, Oliver Lemon
Data Set Full Model Natural Language New Task Visual Modality Wordle Game Grounded Language

November 28, 2023

Centre Stage: Centricity-based Audio-Visual Temporal Action Detection
Hanyuan Wang, Majid Mirmehdi, Dima Damen, Toby Perrett
Temporal Action Detection Visual Modality Light Stage Cross Scale Attention Audio Modality

October 23, 2023

Localizing Active Objects from Egocentric Vision with Symbolic World Knowledge
Te-Lin Wu, Yu Zhou, Nanyun Peng
Visual Modality Symbolic Knowledge Egocentric Vision Active Object Action Knowledge

October 19, 2023

Lost in Translation: When GPT-4V(ision) Can't See Eye to Eye with Text. A Vision-Language-Consistency Analysis of VLLMs and Beyond
Xiang Zhang, Senyu Li, Zijun Wu, Ning Shi
Vision Language Model Text Modality Large Vision Language Model Vision Task Multimodal Approach Cross Modal Interaction Visual Modality Human Eye

September 27, 2023

Perception for Humanoid Robots
Arindam Roychoudhury, Shahram Khorshidi, Subham Agrawal, Maren Bennewitz
Human Robot Interaction Humanoid Robot Perception Aware Proprioceptive Sensing Visual Modality

September 15, 2023

Dynamic Visual Semantic Sub-Embeddings and Fast Re-Ranking
Wenzhang Wei, Zhipeng Gui, Changguang Wu, Anqi Zhao, Dehua Peng, Huayi Wu
Visual Semantic Visual Modality Image Embeddings Cross Modal Matching

July 30, 2023

Rethinking Uncertainly Missing and Ambiguous Visual Modality in Multi-Modal Entity Alignment
Zhuo Chen, Lingbing Guo, Yin Fang, Yichi Zhang, Jiaoyan Chen, Jeff Z. Pan, Yangning Li, Huajun Chen, Wen Zhang
Entity Alignment Visual Modality Multimodal Entity Missingness Resilient Multi Modal Entity Alignment Modality Missing Brain Image

July 22, 2023

Does color modalities affect handwriting recognition? An empirical study on Persian handwritings using convolutional neural networks
Abbas Zohrevand, Zahra Imani, Javad Sadri, Ching Y. Suen
Convolutional Neural Network Empirical Study Handwriting Recognition Visual Modality Handwritten Document Recognition Persian Font

July 6, 2023

CFSum: A Coarse-to-Fine Contribution Network for Multimodal Summarization
Min Xiao, Junnan Zhu, Haitao Lin, Yu Zhou, Chengqing Zong
Structured Summary Coarse to Fine Visual Modality Multimodal Summarization

June 21, 2023

Visual-Aware Text-to-Speech
Mohan Zhou, Yalong Bai, Wei Zhang, Ting Yao, Tiejun Zhao, Tao Mei
Speech Synthesis Visual Modality Visual Feedback Face to Face

June 17, 2023

Enhancing the Prediction of Emotional Experience in Movies using Deep Neural Networks: The Significance of Audio and Language
Sogand Mehrpour Mohammadi, Meysam Gouran Orimi, Hamidreza Rabiee
Deep Neural Network Human Prediction Audio Driven Underlying Emotion Experienced Emotion Human Emotion Visual Modality Movie Review Input Modality Arousal Label

June 4, 2023

Leverage Points in Modality Shifts: Comparing Language-only and Multimodal Word Representations
Aleksey Tikhonov, Lisa Bylinina, Denis Paperno
Language Representation Visual Modality Vision and Language Model Multimodal Embeddings Different Embeddings Leverage Score

June 1, 2023

May 27, 2023

Modality-Independent Teachers Meet Weakly-Supervised Audio-Visual Event Parser
Yung-Hsuan Lai, Yen-Chun Chen, Yu-Chiang Frank Wang
Modality Specific Visual Modality Audio Visual Representation Audio Visual Event Localization Audio Visual Learning Audio Visual Video Parsing Multimodal Teacher

March 8, 2023

Comparing Trajectory and Vision Modalities for Verb Representation
Dylan Ebert, Chen Sun, Ellie Pavlick
Multimodal Model Visual Modality Temporal Trajectory Lexical Feature Environment Representation Word Semantics

February 2, 2023

Large language models predict human sensory judgments across six modalities
Raja Marjieh, Ilia Sucholutsky, Pol van Rijn, Nori Jacoby, Thomas L. Griffiths
Large Language Model Natural Language Processing Different Modality Visual Modality Perceptual Information Psychophysical Task Perceptual Space Human Preference Judgment

November 16, 2022

Real Estate Attribute Prediction from Multiple Visual Modalities with Missing Data
Eric Stumpe, Miroslav Despotovic, Zedong Zhang, Matthias Zeppelzauer
Visual Data Visual Modality Missing Data Intriguing Property

September 30, 2022

Data Poisoning Attacks Against Multimodal Encoders
Ziqing Yang, Xinlei He, Zheng Li, Michael Backes, Mathias Humbert, Pascal Berrang, Yang Zhang
Text Modality Multimodal Model Different Modality Data Poisoning Attack Visual Modality Multimodal Encoder

September 15, 2022

VIPHY: Probing "Visible" Physical Commonsense Knowledge
Shikhar Singh, Ehsan Qasemi, Muhao Chen
Vision Language Model Visual Reasoning Physical Reasoning Visual Modality Physical Commonsense