Visual Entailment

Visual entailment (VE) is a multimodal reasoning task that assesses whether an image semantically implies a given textual statement. Current research focuses on improving VE models' accuracy and robustness, particularly by exploring advanced architectures that leverage object-level alignment within images and text, and by incorporating uncertainty modeling and hierarchical alignment strategies. This work is significant because accurate VE systems are crucial for various applications, including fact verification, image captioning, and more generally, improving the reliability and understanding of information presented in image-text formats.

18papers

Papers

January 9, 2025

Commonsense Video Question Answering through Video-Grounded Entailment Tree Reasoning
Huabin Liu, Filip Ilievski, Cees G. M. Snoek
Entailment Tree Visual Language Model Tree Structure Reasoning schEmA Visual Entailment Video Question

December 19, 2024

Defeasible Visual Entailment: Benchmark, Evaluator, and Reward-Driven Optimization
Yue Zhang, Liqiang Jing, Vibhav Gogate
Visual Entailment New Benchmark Natural Language Inference Textual Entailment Human Evaluation Optimization Purpose Inference System

May 2, 2024

Understanding Figurative Meaning through Explainable Visual Entailment
Arkadiy Saakyan, Shreyas Kulkarni, Tuhin Chakrabarty, Smaranda Muresan
Textual Explanation Visual Entailment Figurative Language

March 5, 2024

VEglue: Testing Visual Entailment Systems via Object-Aligned Joint Erasing
Zhiyuan Chang, Mingyang Li, Junjie Wang, Cheng Li, Qing Wang
Image Text Pair Visual Entailment Single Modality Multi Modal Reasoning Sentence Image Pair

February 27, 2024

February 15, 2024

LLMs as Bridges: Reformulating Grounded Multimodal Named Entity Recognition
Jinyuan Li, Han Li, Di Sun, Jiahao Wang, Wenkun Zhang, Zan Wang, Gang Pan
Medical LLM Multimodal Named Entity Recognition Steel Bridge BioNER Datasets Visual Entailment

December 15, 2023

Do LVLMs Understand Charts? Analyzing and Correcting Factual Errors in Chart Captioning
Kung-Hsiang Huang, Mingyang Zhou, Hou Pong Chan, Yi R. Fung, Zhenhailong Wang, Lingyu Zhang, Shih-Fu Chang, Heng Ji
Factual Error Visual Entailment Image Captioning Visual Language Model

October 23, 2023

Large Language Models are Visual Reasoning Coordinators
Liangyu Chen, Bo Li, Sheng Shen, Jingkang Yang, Chunyuan Li, Kurt Keutzer, Trevor Darrell, Ziwei Liu
Vision Language Model Visual Reasoning Ability Spatial Reasoning Task Visual Entailment Visual Reasoning Capability Visual Reasoning

June 1, 2023

"Let's not Quote out of Context": Unified Vision-Language Pretraining for Context Assisted Image Captioning
Abisek Rajakumar Kalarani, Pushpak Bhattacharyya, Niyati Chhaya, Sumit Shekhar
Vision Language Image Captioning Captioning Datasets Visual Entailment News Image Context Information

November 17, 2022

I Can't Believe There's No Images! Learning Visual Tasks Using only Language Supervision
Sophia Gu, Christopher Clark, Aniruddha Kembhavi
Training Data Visual Entailment Visual Task News Caption Contrastive Model Language Supervision

November 16, 2022

AlignVE: Visual Entailment Recognition Based on Alignment Relations
Biwei Cao, Jiuxin Cao, Jie Gui, Jiayun Shen, Bo Liu, Lei He, Yuan Yan Tang, James Tin-Yau Kwok
Visual Entailment Relational Inference LD Align Semantic Feature Better Alignment

October 11, 2022

MAP: Multimodal Uncertainty-Aware Vision-Language Pre-training Model
Yatai Ji, Junjie Wang, Yuan Gong, Lin Zhang, Yanru Zhu, Hongfa Wang, Jiaxing Zhang, Tetsuya Sakai, Yujiu Yang
Vision Language Full Model Multimodal Semantic Visual Entailment mAP Modal Uncertainty

September 9, 2022

Pre-training image-language transformers for open-vocabulary tasks
AJ Piergiovanni, Weicheng Kuo, Anelia Angelova
Generative Vision Language Model Caption Data Open Vocabulary Visual Question Answering Visual Entailment Language Transformer Transformer Language Model

August 29, 2022

Efficient Vision-Language Pretraining with Visual Concepts and Hierarchical Alignment
Mustafa Shukor, Guillaume Couairon, Matthieu Cord
Vision Language Visual Concept Image Level Annotation Downstream Task Visual Grounding Visual Entailment Hierarchical Alignment

July 23, 2022

Chunk-aware Alignment and Lexical Constraint for Visual Entailment with Natural Language Explanations
Qian Yang, Yunxin Li, Baotian Hu, Lin Ma, Yuxing Ding, Min Zhang
Lexical Constraint Natural Language Explanation Visual Language Reasoning Aware Alignment Visual Entailment Relational Inference Vision Language Reasoning

May 24, 2022

On Advances in Text Generation from Images Beyond Captioning: A Case Study in Self-Rationalization
Shruti Palaskar, Akshita Bhagia, Yonatan Bisk, Florian Metze, Alan W Black, Ana Marasović
Generated Caption Visual Entailment Self Rationalization Multimodal Model Image Captioning Text Generation Visual Modality Multimodal Task

March 29, 2022

Fine-Grained Visual Entailment
Christopher Thomas, Yipeng Zhang, Shih-Fu Chang
Fine Grained Visual Entailment Multi Modal Reasoning Fine Grained Knowledge

March 14, 2022

CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual Entailment
Haoyu Song, Li Dong, Wei-Nan Zhang, Ting Liu, Furu Wei
Visual Entailment CLIP Model Empirical Study Vision Language Task 3d Vqa Shot Vision Language Shot Learner

December 16, 2021

Logically at Factify 2022: Multimodal Fact Verification
Jie Gao, Hella-Franziska Hoffmann, Stylianos Oikonomou, David Kiskovski, Anil Bandhakavi
Visual Entailment Multimodal Dataset Entailment Tree Fact Checking

Visual Entailment

Papers

Commonsense Video Question Answering through Video-Grounded Entailment Tree Reasoning

Defeasible Visual Entailment: Benchmark, Evaluator, and Reward-Driven Optimization

Understanding Figurative Meaning through Explainable Visual Entailment

VEglue: Testing Visual Entailment Systems via Object-Aligned Joint Erasing

Probing Multimodal Large Language Models for Global and Local Semantic Representations

ArcSin: Adaptive ranged cosine Similarity injected noise for Language-Driven Visual Tasks

LLMs as Bridges: Reformulating Grounded Multimodal Named Entity Recognition

Do LVLMs Understand Charts? Analyzing and Correcting Factual Errors in Chart Captioning

Large Language Models are Visual Reasoning Coordinators

"Let's not Quote out of Context": Unified Vision-Language Pretraining for Context Assisted Image Captioning

I Can't Believe There's No Images! Learning Visual Tasks Using only Language Supervision

AlignVE: Visual Entailment Recognition Based on Alignment Relations

MAP: Multimodal Uncertainty-Aware Vision-Language Pre-training Model

Pre-training image-language transformers for open-vocabulary tasks

Efficient Vision-Language Pretraining with Visual Concepts and Hierarchical Alignment

Chunk-aware Alignment and Lexical Constraint for Visual Entailment with Natural Language Explanations

On Advances in Text Generation from Images Beyond Captioning: A Case Study in Self-Rationalization

Fine-Grained Visual Entailment

CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual Entailment

Logically at Factify 2022: Multimodal Fact Verification