Open Vocabulary

Open vocabulary research aims to enable artificial intelligence systems to understand and interact with the world using free-form text descriptions, going beyond predefined categories. Current efforts focus on adapting large language and vision-language models (like CLIP and LLMs) to various tasks, including 3D scene understanding, object detection and tracking, and robotic manipulation, often employing architectures such as DETR and transformers. This work is significant because it pushes the boundaries of AI's ability to generalize to unseen objects and situations, with potential impact on autonomous driving, robotics, and other fields requiring robust real-world interaction.

Papers

April 1, 2024

GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields
Yunsong Wang, Hanlin Chen, Gim Hee Lee
Open Vocabulary Implicit Neural Representation Vision Language Foundation Model Semantic Field

March 31, 2024

Training-Free Semantic Segmentation via LLM-Supervision
Wenfang Sun, Yingjun Du, Gaowen Liu, Ramana Kompella, Cees G. M. Snoek
Large Language Model Language Model Open Vocabulary Free Semantic Segmentation Text Supervised Semantic Segmentation

March 26, 2024

Hierarchical Open-Vocabulary 3D Scene Graphs for Language-Grounded Robot Navigation
Abdelrhman Werby, Chenguang Huang, Martin Büchner, Abhinav Valada, Wolfram Burgard
Natural Language Open Vocabulary

March 20, 2024

Find n' Propagate: Open-Vocabulary 3D Object Detection in Urban Environments
Djamahl Etchegaray, Zi Huang, Tatsuya Harada, Yadan Luo
Pre Trained Vision Language Model Urban Environment Open Vocabulary 3D Detector Lidar Based 3D Object Detector Open Vocabulary 3D 3D Box

March 19, 2024

CLIP-VIS: Adapting CLIP for Open-Vocabulary Video Instance Segmentation
Wenqi Zhu, Jiale Cao, Jin Xie, Shuangming Yang, Yanwei Pang
Contrastive Language Image Open Vocabulary Video Instance Segmentation Open Vocabulary Video Instance Segmentation

March 18, 2024

OpenOcc: Open Vocabulary 3D Scene Reconstruction via Occupancy Representation
Haochen Jiang, Yueming Xu, Yihan Zeng, Hang Xu, Wei Zhang, Jianfeng Feng, Li Zhang
Autonomous Navigation Open World Open Vocabulary 3D Scene Reconstruction State Occupancy Matching

March 14, 2024

Renovating Names in Open-Vocabulary Segmentation Benchmarks
Haiwen Huang, Songyou Peng, Dan Zhang, Andreas Geiger
Vision Language Model Open Vocabulary Segmentation Datasets

March 12, 2024

Open-Vocabulary Scene Text Recognition via Pseudo-Image Labeling and Margin Loss
Xuhua Ren, Hengcan Shi, Jin Li
Open Vocabulary Scene Text Recognition Gallery Style OCR Margin Loss Context Based Out of Vocabulary

March 11, 2024

Real-time Transformer-based Open-Vocabulary Detection with Efficient Fusion Head
Tiancheng Zhao, Peng Liu, Xuan He, Lu Zhang, Kyusong Lee
Real Time Open Vocabulary Open Vocabulary Object Detection Effective Fusion Transformer Based Detector Orthogonal Transforms

February 23, 2024

OpenSUN3D: 1st Workshop Challenge on Open-Vocabulary 3D Scene Understanding
Francis Engelmann, Ayca Takmaz, Jonas Schult, Elisabetta Fedele, Johanna Wald, Songyou Peng, Xi Wang, Or Litany, Siyu Tang, Federico Tombari, Marc Pollefeys, Leonidas Guibas, Hongbo Tian, Chunjie Wang, Xiaosheng Yan, Bingwen Wang, Xuanyang Zhang, Xiao Liu, Phuc Nguyen, Khoi Nguyen, Anh Tran, Cuong Pham, Zhening Huang, Xiaoyang Wu, Xi Chen, Hengshuang Zhao, Lei Zhu, Joan Lasenby
Open Vocabulary

January 21, 2024

UniM-OV3D: Uni-Modality Open-Vocabulary 3D Scene Understanding with Fine-Grained Feature Representation
Qingdong He, Jinlong Peng, Zhengkai Jiang, Kai Wu, Xiaozhong Ji, Jiangning Zhang, Yabiao Wang, Chengjie Wang, Mingang Chen, Yunsheng Wu
Fine Grained Open Vocabulary 3D Dense Captioning

January 17, 2024

POP-3D: Open-Vocabulary 3D Occupancy Prediction from Images
Antonin Vobecky, Oriane Siméoni, David Hurych, Spyros Gidaris, Andrei Bursuc, Patrick Pérez, Josef Sivic
Open Vocabulary 3D Annotation 3D Semantic Occupancy Voxel Based Semantic Segmentation

January 15, 2024

MaskClustering: View Consensus based Mask Graph Clustering for Open-Vocabulary 3D Instance Segmentation
Mi Yan, Jiazhao Zhang, Yan Zhu, He Wang
Open Vocabulary Consensus Group Decision 3D Instance Open Vocabulary 3D Instance Segmentation

January 13, 2024

Domain Adaptation for Large-Vocabulary Object Detectors
Kai Jiang, Jiaxing Huang, Weiying Xie, Jie Lei, Yunsong Li, Ling Shao, Shijian Lu
Domain Adaptation Cross Domain Open Vocabulary Implicit Knowledge Graph Knowledge Vast Vocabulary Visual Detection

January 2, 2024

Query-Based Knowledge Sharing for Open-Vocabulary Multi-Label Classification
Xuelin Zhu, Jian Liu, Dongqi Tang, Jiawei Ge, Weijia Liu, Bo Liu, Jiuxin Cao
Multi Label Classification Open Vocabulary Latent Token Multi Label Zero Shot Learning

December 29, 2023

Leveraging Open-Vocabulary Diffusion to Camouflaged Instance Segmentation
Tuan-Anh Vu, Duc Thanh Nguyen, Qing Guo, Binh-Son Hua, Nhat Minh Chung, Ivor W. Tsang, Sai-Kit Yeung
Instance Segmentation Open Vocabulary Object Segmentation Object Representation Text to Image Diffusion Image Text Model Open Vocabulary Instance Segmentation

December 20, 2023

TagCLIP: A Local-to-Global Framework to Enhance Open-Vocabulary Multi-Label Classification of CLIP Without Training
Yuqi Lin, Minghao Chen, Kaipeng Zhang, Hengjia Li, Mingming Li, Zheng Yang, Dongqin Lv, Binbin Lin, Haifeng Liu, Deng Cai
Pseudo Label Multi Label Contrastive Language Image Multi Label Classification Open Vocabulary Single Label Global to Local Modeling