BPE Gets Picky: Efficient Vocabulary Refinement During Tokenizer Training [2409.04599]