Inference Memory Usage

Inference memory usage in large language models (LLMs) and other deep neural networks (DNNs) is a critical bottleneck limiting deployment on resource-constrained devices. Research focuses on optimizing memory efficiency through techniques like novel model architectures (e.g., selective state-space models), improved cache management strategies (e.g., dynamic key-value pair eviction), and model compression methods (e.g., channel pruning, activation sparsity exploitation). These advancements aim to reduce memory footprint without significant performance degradation, enabling wider accessibility and deployment of powerful AI models across various applications and platforms.

Papers

December 30, 2024

Analog Alchemy: Neural Computation with In-Memory Inference, Learning and Routing
Yigit Demirag
LeArning Abstract Routing Problem Memristive Device Neural Computation Analog Computing Analog Domain Inference Memory Usage

November 18, 2024

Bi-Mamba: Towards Accurate 1-Bit State Space Models
Shengkun Tang, Liqun Ma, Haonan Li, Mingjie Sun, Zhiqiang Shen
Large Language Model State Space Model Inference Memory Usage Autoregressive Distillation

November 14, 2024

FluidML: Fast and Memory Efficient Inference Optimization
Jinjie Liu, Hang Qiu
Based Inference Inference Memory Usage

June 12, 2024

An Empirical Study of Mamba-based Language Models
Roger Waleffe, Wonmin Byeon, Duncan Riach, Brandon Norick, Vijay Korthikanti, Tri Dao, Albert Gu, Ali Hatamizadeh, Sudhakar Singh, Deepak Narayanan, Garvit Kulshreshtha, Vartika Singh, Jared Casper, Jan Kautz, Mohammad Shoeybi, Bryan Catanzaro
Empirical Study Transformer Model Long Context Language Modeling Selective State Space Mamba Based Model Inference Memory Usage

April 24, 2024

CORM: Cache Optimization with Recent Message for Large Language Model Inference
Jincheng Dai, Zhuowei Huang, Haiyun Jiang, Chen Chen, Deng Cai, Wei Bi, Shuming Shi
Fine Tuning Transformer Model Large Language Model Inference Co Occurrence KV Cache System Message Inference Memory Usage Cache Overloading

March 19, 2024

Memory-Efficient and Secure DNN Inference on TrustZone-enabled Consumer IoT Devices
Xueshuo Xie, Haoxu Wang, Zhaolong Jian, Tao Li, Wei Wang, Zhiwei Xu, Guiling Wang
Neural Network Efficient Inference Internet of Thing Device Limited Memory Secure Deep Inference Memory Usage

October 9, 2023

Compressing Context to Enhance Inference Efficiency of Large Language Models
Yucheng Li, Bo Dong, Chenghua Lin, Frank Guerin
Large Language Model Long Context Inference Efficiency Context Length Context Compression Inference Memory Usage

October 6, 2023

ReLU Strikes Back: Exploiting Activation Sparsity in Large Language Models
Iman Mirzadeh, Keivan Alizadeh, Sachin Mehta, Carlo C Del Mundo, Oncel Tuzel, Golnoosh Samei, Mohammad Rastegari, Mehrdad Farajtabar
LLM Inference ReLU Layer ReLU Activation Activation Sparsity Inference Memory Usage

July 17, 2023

UPSCALE: Unconstrained Channel Pruning
Alvin Wan, Hanxiang Hao, Kaushik Patnaik, Yueyang Xu, Omer Hadad, David Güera, Zhile Ren, Qi Shan
Inference Latency Inference Speed Channel Pruning SE SPP DenseNet Inference Memory Usage

May 26, 2023

Scissorhands: Exploiting the Persistence of Importance Hypothesis for LLM KV Cache Compression at Test Time
Zichang Liu, Aditya Desai, Fangshuo Liao, Weitao Wang, Victor Xie, Zhaozhuo Xu, Anastasios Kyrillidis, Anshumali Shrivastava
Large Language Model Test Time Memory Management Inference Workload KV Cache Compression Batch Inference Inference Memory Usage

April 6, 2022

SqueezeNeRF: Further factorized FastNeRF for memory-efficient inference
Krishna Wadhwani, Tamaki Kojima
Neural Radiance Field Squeeze Flow Inference Memory Usage