Language BERTs

Language BERTs, particularly those extended for vision-language tasks (VL-BERTs), aim to improve multimodal understanding by leveraging the power of pre-trained transformer models. Current research focuses on enhancing VL-BERT architectures to better handle temporal information in videos (e.g., by incorporating trajectory-word alignments) and adapting them to perform multi-step tasks through graphical user interfaces. These advancements are significant because they enable more robust and versatile applications, such as improved video understanding and the development of AI agents capable of interacting with complex visual interfaces.

Papers

January 5, 2023

Learning Trajectory-Word Alignments for Video-Language Tasks
Xu Yang, Zhangzikang Li, Haiyang Xu, Hanwang Zhang, Qinghao Ye, Chenliang Li, Ming Yan, Yu Zhang, Fei Huang, Songfang Huang
Video Language Task Language BERTs Trajectory Word Alignment

March 15, 2022

Do BERTs Learn to Use Browser User Interface? Exploring Multi-Step Tasks with Unified Vision-and-Language BERTs
Taichi Iki, Akiko Aizawa
BERT Model Pre Trained Transformer Text to Text Task Agnostic Representation Multi TASK Multi Stage Task Web Browser Language BERTs

January 6, 2022

Self-Training Vision Language BERTs with a Unified Conditional Model
Xiaofeng Yang, Fengmao Lv, Fayao Liu, Guosheng Lin
BERT Model Conditional Model Language BERTs

Language BERTs

Papers

Learning Trajectory-Word Alignments for Video-Language Tasks

Do BERTs Learn to Use Browser User Interface? Exploring Multi-Step Tasks with Unified Vision-and-Language BERTs

Self-Training Vision Language BERTs with a Unified Conditional Model