CLIP Model for Images to Textual Prompts Based on Top-k Neighbors [2401.09763]