GPU Memory

GPU memory limitations pose a significant bottleneck for training and deploying increasingly large language models (LLMs) and other deep learning models. Current research focuses on optimizing memory usage through techniques like key-value cache compression (e.g., using attention weights to prioritize information), activation offloading to faster storage, and innovative memory management strategies such as speculative decoding and dynamic tensor allocation. These advancements are crucial for enabling the efficient training and inference of large models on both high-end and consumer-grade hardware, impacting the accessibility and scalability of AI applications across various domains.

Papers

February 27, 2024

Compass: A Decentralized Scheduler for Latency-Sensitive ML Workflows
Yuting Yang, Andrea Merlina, Weijia Song, Tiancheng Yuan, Ken Birman, Roman Vitenberg
GPU Memory Complex Query Global Placement

February 21, 2024

February 10, 2024

Fiddler: CPU-GPU Orchestration for Fast Inference of Mixture-of-Experts Models
Keisuke Kamahori, Yile Gu, Kan Zhu, Baris Kasikci
Mixture of Expert Fast Inference Task Offloading Multi GPU GPU Memory

October 13, 2023

G10: Enabling An Efficient Unified GPU Memory and Storage Architecture with Smart Tensor Migrations
Haoyang Zhang, Yirui Eric Zhou, Yuqi Xue, Yiqi Liu, Jian Huang
Tensor Data GPU Memory Deep Learning Workload Data Storage

September 3, 2023

FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs
Zhenheng Tang, Yuxin Wang, Xin He, Longteng Zhang, Xinglin Pan, Qiang Wang, Rongfei Zeng, Kaiyong Zhao, Shaohuai Shi, Bingsheng He, Xiaowen Chu
Single GPU Decentralized Training GPU Memory LLM Deployment Consumer Level GPUs

July 17, 2023

FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning
Tri Dao
Attention Layer Efficient Attention GPU Memory Magic Cube Partition Expert Parallelism FlashAttention 2 Scaling Transformer

July 5, 2023

Improving Automatic Parallel Training via Balanced Memory Workload Optimization
Yujie Wang, Youhe Jiang, Xupeng Miao, Fangcheng Fu, Shenhan Zhu, Xiaonan Nie, Yaofeng Tu, Bin Cui
Transformer Model Parallel Training GPU Memory Expert Parallelism Memory Optimization Large Scale Deep Learning

May 29, 2023

SlimFit: Memory-Efficient Fine-Tuning of Transformer-based Models Using Training Dynamics
Arash Ardakani, Altan Haan, Shangyin Tan, Doru Thom Popovici, Alvin Cheung, Costin Iancu, Koushik Sen
Transformer Based Model Training Dynamic GPU Memory Memory Efficient Fine Tuning Computer Vision Benchmark

April 24, 2023

Exploring shared memory architectures for end-to-end gigapixel deep learning
Lucas W. Remedios, Leon Y. Cai, Samuel W. Remedios, Karthik Ramadass, Aravind Krishnan, Ruining Deng, Can Cui, Shunxing Bao, Lori A. Coburn, Yuankai Huo, Bennett A. Landman
GPU Memory Gigapixel Image Memory Architecture Unified Memory

October 8, 2022

Demand Layering for Real-Time DNN Inference with Minimized Memory Usage
Mingoo Ji, Saehanseul Yi, Changjin Koo, Sol Ahn, Dongjoo Seo, Nikil Dutt, Jong-Chan Kim
Deep Neural Network Memory Efficient GPU Memory Optimization Layer Layer by Layer

August 8, 2022

A Frequency-aware Software Cache for Large Recommendation System Embeddings
Jiarui Fang, Geng Zhang, Jiatong Han, Shenggui Li, Zhengda Bian, Yongbin Li, Jin Liu, Yang You
Recommendation Model Parallel Training GPU Memory Software Cache

May 10, 2022

Training Personalized Recommendation Systems from (GPU) Scratch: Look Forward not Backwards
Youngeun Kwon, Minsoo Rhu
Recommendation System Single GPU Scratch Project GPU Memory Software Cache Hybrid CPU GPU

March 30, 2022

DELTA: Dynamically Optimizing GPU Memory beyond Tensor Recomputation
Yu Tang, Chenyu Wang, Yufan Zhang, Yuliang Liu, Xingcheng Zhang, Linbo Qiao, Zhiquan Lai, Dongsheng Li
Tensor Data GPU Memory Delta XAI Tensor Compiler Tensor to Tensor

February 2, 2022

Harmony: Overcoming the Hurdles of GPU Memory Capacity to Train Massive DNN Models on Commodity Servers
Youjie Li, Amar Phanishayee, Derek Murray, Jakub Tarnawski, Nam Sung Kim
Deep Neural Network DNN Framework Multiple Obstacle GPU Memory

November 26, 2021

Efficient Multi-Organ Segmentation Using SpatialConfiguration-Net with Low GPU Memory Requirements
Franz Thaler, Christian Payer, Horst Bischof, Darko Stern
Semantic Segmentation Segmentation Model Multi Organ Segmentation Medical Datasets GPU Memory

GPU Memory

Papers

Compass: A Decentralized Scheduler for Latency-Sensitive ML Workflows

NeuroFlux: Memory-Efficient CNN Training Using Adaptive Local Learning

FinGPT-HPC: Efficient Pretraining and Finetuning Large Language Models for Financial Applications with High-Performance Computing

Fiddler: CPU-GPU Orchestration for Fast Inference of Mixture-of-Experts Models

G10: Enabling An Efficient Unified GPU Memory and Storage Architecture with Smart Tensor Migrations

FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs

FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning

Improving Automatic Parallel Training via Balanced Memory Workload Optimization

SlimFit: Memory-Efficient Fine-Tuning of Transformer-based Models Using Training Dynamics

Exploring shared memory architectures for end-to-end gigapixel deep learning

Demand Layering for Real-Time DNN Inference with Minimized Memory Usage

A Frequency-aware Software Cache for Large Recommendation System Embeddings

Training Personalized Recommendation Systems from (GPU) Scratch: Look Forward not Backwards

DELTA: Dynamically Optimizing GPU Memory beyond Tensor Recomputation

Harmony: Overcoming the Hurdles of GPU Memory Capacity to Train Massive DNN Models on Commodity Servers

Efficient Multi-Organ Segmentation Using SpatialConfiguration-Net with Low GPU Memory Requirements