Inference Acceleration for Large Language Models on CPUs [2406.07553]