Shot Localization

Shot localization, the task of identifying the location of objects or events within an image or video based on textual or other cues, is a rapidly evolving field driven by the need for more robust and efficient methods. Current research emphasizes zero-shot and few-shot learning approaches, often employing transformer-based architectures and leveraging pre-trained vision-language models like CLIP, to minimize reliance on large labeled datasets. This work is significant for its potential applications in diverse areas such as image manipulation detection, embodied AI, and accessibility technologies for visually impaired individuals, improving the accuracy and efficiency of object localization across various scenarios.

Papers

November 20, 2024

Teaching VLMs to Localize Specific Objects from In-context Examples
Sivan Doveh, Nimrod Shabtay, Wei Lin, Eli Schwartz, Hilde Kuehne, Raja Giryes, Rogerio Feris, Leonid Karlinsky, James Glass, Assaf Arbelle, Shimon Ullman, M. Jehanzeb Mirza
Vision Language Model Vision Language Visual Question Answering Object Localization Context Example Visual Context Shot Localization

November 18, 2024

Text-guided Zero-Shot Object Localization
Jingjing Wang, Xinglin Piao, Zongzhi Gao, Bo Li, Yong Zhang, Baocai Yin
Object Localization Localization Accuracy Localization Performance Shot Localization

October 5, 2024

ForgeryTTT: Zero-Shot Image Manipulation Localization with Test-Time Training
Weihuang Liu, Xi Shen, Chi-Man Pun, Xiaodong Cun
Zero Shot Training Data Image Encoder Tamper Detection Shot Localization

March 19, 2024

Few-shot Object Localization
Yunhan Ren, Bo Li, Chengyang Zhang, Yong Zhang, Baocai Yin
Object Localization Precise Localization Shot Localization

March 11, 2024

DiaLoc: An Iterative Approach to Embodied Dialog Localization
Chao Zhang, Mohan Li, Ignas Budvytis, Stephan Liwicki
Iterative Approach Shot Localization Dialog Based Localization

December 6, 2023

Boosting Segment Anything Model Towards Open-Vocabulary Learning
Xumeng Han, Longhui Wei, Xuehui Yu, Zhiyang Dou, Xin He, Kuiran Wang, Zhenjun Han, Qi Tian
Segment Anything Model Open Vocabulary Region Proposal Object Category Open Vocabulary Object Detector Shot Localization

December 1, 2023

Grounding Everything: Emerging Localization Properties in Vision-Language Transformers
Walid Bousselham, Felix Petersen, Vittorio Ferrari, Hilde Kuehne
Self Attention Vision Language Foundation Model Vision Language Transformer Shot Localization Localizability Enhanced Navigation Open Vocabulary Object Localization

October 22, 2023

OV-VG: A Benchmark for Open-Vocabulary Visual Grounding
Chunlei Wang, Wenquan Feng, Xiangtai Li, Guangliang Cheng, Shuchang Lyu, Binghao Liu, Lijiang Chen, Qi Zhao
New Benchmark Visual Grounding Open Vocabulary Open Vocabulary Object Detection Shot Localization

April 26, 2023

StepFormer: Self-supervised Step Discovery and Localization in Instructional Videos
Nikita Dvornik, Isma Hadji, Ran Zhang, Konstantinos G. Derpanis, Animesh Garg, Richard P. Wildes, Allan D. Jepson
Localization Focus Cross Over Step Video Annotation Instructional Video Shot Localization Step Count

July 24, 2022

VizWiz-FewShot: Locating Objects in Images Taken by People With Visual Impairments
Yu-Yun Tseng, Alexander Bell, Danna Gurari
Instance Segmentation Arbitrary Object Person Name Shot Object Detection Shot Training Visual Impairment Shot Localization

April 7, 2022

Adapting CLIP For Phrase Localization Without Further Training
Jiahao Li, Greg Shakhnarovich, Raymond A. Yeh
Single CLIP Contrastive Vision Language Text Grounding Shot Localization

March 30, 2022

SeqTR: A Simple yet Universal Network for Visual Grounding
Chaoyang Zhu, Yiyi Zhou, Yunhang Shen, Gen Luo, Xingjia Pan, Mingbao Lin, Chao Chen, Liujuan Cao, Xiaoshuai Sun, Rongrong Ji
Visual Grounding Shot Localization