Heterogeneous GPU

Heterogeneous GPU computing focuses on efficiently utilizing diverse GPU types within a single system for tasks like large language model (LLM) training and inference. Current research emphasizes optimizing resource allocation and scheduling across heterogeneous hardware, employing techniques like max-flow algorithms, reinforcement learning for resource partitioning, and adaptive batch sizes in stochastic gradient descent. This work is crucial for reducing the cost and improving the performance of computationally intensive applications, particularly in AI and high-performance computing, by enabling the use of a wider range of available hardware resources.

13papers

Papers

May 6, 2025

Prism: Unleashing GPU Sharing for Cost-Efficient Multi-LLM Serving
Shan Yu, Jiarong Xing, Yifan Qiao, Mingyuan Ma, Yangmin Li, Yang Wang, Shuo Yang, Zhiqiang Xie, Shiyi Cao, Ke Bao, Ion Stoica, Harry Xu, Ying Sheng
UCLA●UC Berkeley●Rice University●Harvard University●Carnegie Mellon University●Intel●Stanford University●LMSYS
Runtime Performance Prisma Satellite Mission Heterogeneous GPU Redistribution Mechanism

April 16, 2025

Characterizing and Optimizing LLM Inference Workloads on CPU-GPU Coupled Architectures
Prabhu Vellaisamy, Thomas Labonte, Sourav Chakraborty, Matt Turner, Samantika Sury, John Paul Shen
Carnegie Mellon University●Inc.●Hewlett Packard Enterprise
Inference Workload Multi GPU Heterogeneous GPU Inference Latency Large Language Model Inference New Characterization Architecture Perspective

April 4, 2025

HeterMoE: Efficient Training of Mixture-of-Experts Models on Heterogeneous GPUs
Yongji Wu, Xueshen Liu, Shuowei Jin, Ceyu Xu, Feng Qian, Z. Morley Mao, Matthew Lentz, Danyang Zhuo, Ion Stoica
UC Berkeley●Univerisity of Michigan●University of Southern California●Duke Univerisity
Mixture of Expert Heterogeneous Training Large Language Model Heterogeneous GPU Efficient Training

April 3, 2025

FlowKV: A Disaggregated Inference Framework with Low-Latency KV Cache Transfer and Load-Aware Scheduling
Weiqing Li, Guochao Jiang, Xiangyong Ding, Zhangcheng Tao, Chuzhan Hao, Chenfeng Xu, Yuewei Zhang, Hao Wang
Formality Transfer KV Cache Heterogeneous GPU Large Language Model Inference

March 13, 2025

Resource Heterogeneity-Aware and Utilization-Enhanced Scheduling for Deep Learning Clusters
Abeda Sultana, Nabin Pakka, Fei Xu, Xu Yuan, Li Chen, Nian-Feng Tzeng
University of Louisiana at Lafayette●East China Normal University●University of Delaware
Adaptive Scheduling Dynamic Scheduling Heterogeneous Autoencoder Heterogeneous GPU Heterogeneous Source

February 19, 2025

Astra: Efficient and Money-saving Automatic Parallel Strategies Search on Heterogeneous GPUs
Peiran Wang, Haibing Li, Fu Haohan, Shiyong Li, Yanpeng Wang, Dou Shen
Unknown
Parallelization Strategy Heterogeneous GPU

February 10, 2025

MoETuner: Optimized Mixture of Expert Serving with Balanced Expert Placement and Token Routing
Seokjin Go, Divya Mahajan
Expert Observation Expert Knowledge Mixture of Expert Global Placement Heterogeneous GPU Token Routing GPU Cluster Transformer Model

November 26, 2024

KVPR: Efficient LLM Inference with I/O-Aware KV Cache Partial Recomputation
Chaoyi Jiang, Lei Gao, Hossein Entezari Zarch, Murali Annavaram
LLM Inference Auto Regressive Decoding Heterogeneous GPU GPU Implementation Key Value Cache Compression Key Value Cache

October 22, 2024

Optimizing Mixture-of-Experts Inference Time Combining Model Deployment and Communication Scheduling
Jialong Li, Shreyansh Tripathi, Lakshay Rastogi, Yiming Lei, Rui Pan, Yiting Xia
Mixture of Expert GPU Cluster Heterogeneous GPU

June 3, 2024

Helix: Serving Large Language Models over Heterogeneous GPUs and Network via Max-Flow
Yixuan Mei, Yonghao Zhuang, Xupeng Miao, Juncheng Yang, Zhihao Jia, Rashmi Vinayak
Heterogeneous GPU Large Language Model

May 25, 2024

HETHUB: A Distributed Training System with Heterogeneous Cluster for Large-Scale Models
Si Xu, Zixiao Huang, Yan Zeng, Shengen Yan, Xuefei Ning, Quanlu Zhang, Haolin Ye, Sipei Gu, Chunsheng Shui, Zhezheng Lin, Hao Zhang+3
Heterogeneous GPU Training Time Large Scale Model

May 14, 2024

Hierarchical Resource Partitioning on Modern GPUs: A Reinforcement Learning Approach
Urvij Saroliya, Eishi Arima, Dai Liu, Martin Schulz
Multi GPU Reinforcement Learning Approach Heterogeneous GPU Computing Cluster

April 22, 2024

M\'elange: Cost Efficient Large Language Model Serving by Exploiting GPU Heterogeneity
Tyler Griggs, Xiaoxuan Liu, Jiaxiang Yu, Doyoung Kim, Wei-Lin Chiang, Alvin Cheung, Ion Stoica
Efficient Large Language Model GPU Cluster Heterogeneous GPU

March 24, 2024

A Codesign of Scheduling and Parallelization for Large Model Training in Heterogeneous Clusters
Chunyu Xue, Weihao Cui, Han Zhao, Quan Chen, Shulai Zhang, Pengyu Yang, Jing Yang, Shaobo Li, Minyi Guo
Cluster Scheduling Heterogeneous GPU 3D Parallelism Model Training Heterogeneous Cluster Task Scheduling

March 2, 2024

LLM-PQ: Serving LLM on Heterogeneous Clusters with Phase-Aware Partition and Adaptive Quantization
Juntao Zhao, Borui Wan, Yanghua Peng, Haibin Lin, Chuan Wu
Inference Workload Heterogeneous GPU Model Partition Medical LLM Large Scale Language Model Mixed Precision Quantization Heterogeneous Cluster Adaptive Quantization

February 6, 2024

Towards Deterministic End-to-end Latency for Medical AI Systems in NVIDIA Holoscan
Soham Sinha, Shekhar Dwivedi, Mahdi Azizian
End to End Resource Contention Medical AI Heterogeneous GPU

November 22, 2023

NeutronOrch: Rethinking Sample-based GNN Training under CPU-GPU Heterogeneous Environments
Xin Ai, Qiange Wang, Chunyu Cao, Yanfeng Zhang, Chaoyi Chen, Hao Yuan, Yu Gu, Ge Yu
Heterogeneous GPU State of the Art GNN Based Service GNN Model GNN Training GPU Training

November 17, 2023

FIKIT: Priority-Based Real-time GPU Multi-tasking Scheduling with Kernel Identification
Wenqing Wu
GPU Cluster Heterogeneous GPU Kernel Classification High Performance Computing

August 29, 2023

ABS-SGD: A Delayed Synchronous Stochastic Gradient Descent Algorithm with Adaptive Batch Size for Heterogeneous GPU Clusters
Xin Zhou, Ling Chen, Houming Wu
Stale Gradient Heterogeneous GPU Stochastic Gradient Descent Gradient Delay Adaptive Batch Size

January 1, 2023

MIGPerf: A Comprehensive Benchmark for Deep Learning Training and Inference Workloads on Multi-Instance GPUs
Huaizheng Zhang, Yuanming Li, Wencong Xiao, Yizheng Huang, Xing Di, Jianxiong Yin, Simon See, Yong Luo, Chiew Tong Lau, Yang You
Comprehensive Benchmark Multi GPU Heterogeneous GPU Inference Workload GPU Architecture

Heterogeneous GPU

Papers

Prism: Unleashing GPU Sharing for Cost-Efficient Multi-LLM Serving

Characterizing and Optimizing LLM Inference Workloads on CPU-GPU Coupled Architectures

HeterMoE: Efficient Training of Mixture-of-Experts Models on Heterogeneous GPUs

FlowKV: A Disaggregated Inference Framework with Low-Latency KV Cache Transfer and Load-Aware Scheduling

Resource Heterogeneity-Aware and Utilization-Enhanced Scheduling for Deep Learning Clusters

Astra: Efficient and Money-saving Automatic Parallel Strategies Search on Heterogeneous GPUs

MoETuner: Optimized Mixture of Expert Serving with Balanced Expert Placement and Token Routing

KVPR: Efficient LLM Inference with I/O-Aware KV Cache Partial Recomputation

Optimizing Mixture-of-Experts Inference Time Combining Model Deployment and Communication Scheduling

Helix: Serving Large Language Models over Heterogeneous GPUs and Network via Max-Flow

HETHUB: A Distributed Training System with Heterogeneous Cluster for Large-Scale Models

Hierarchical Resource Partitioning on Modern GPUs: A Reinforcement Learning Approach

M\'elange: Cost Efficient Large Language Model Serving by Exploiting GPU Heterogeneity

A Codesign of Scheduling and Parallelization for Large Model Training in Heterogeneous Clusters

LLM-PQ: Serving LLM on Heterogeneous Clusters with Phase-Aware Partition and Adaptive Quantization

Towards Deterministic End-to-end Latency for Medical AI Systems in NVIDIA Holoscan

NeutronOrch: Rethinking Sample-based GNN Training under CPU-GPU Heterogeneous Environments

FIKIT: Priority-Based Real-time GPU Multi-tasking Scheduling with Kernel Identification

ABS-SGD: A Delayed Synchronous Stochastic Gradient Descent Algorithm with Adaptive Batch Size for Heterogeneous GPU Clusters

MIGPerf: A Comprehensive Benchmark for Deep Learning Training and Inference Workloads on Multi-Instance GPUs