Input Data Pipeline

Input data pipelines are crucial for efficient machine learning, responsible for ingesting, transforming, and delivering training data to models. Current research focuses on optimizing pipeline performance through techniques like automated parallelism, caching, prefetching, and intelligent resource allocation, aiming to overcome software bottlenecks that limit training speed. These advancements significantly impact the scalability and efficiency of machine learning workflows, enabling faster model training and reducing computational costs for large-scale applications. The development of tools that automatically diagnose and resolve performance issues within these pipelines is a key area of ongoing improvement.

Papers

January 17, 2024

cedar: Optimized and Unified Machine Learning Input Data Pipelines
Mark Zhao, Emanuel Adamiak, Christos Kozyrakis
Performance Optimization Input Data Pipeline

November 7, 2021

Plumber: Diagnosing and Removing Performance Bottlenecks in Machine Learning Data Pipelines
Michael Kuchnik, Ana Klimovic, Jiri Simsa, Virginia Smith, George Amvrosiadis
Machine Learning Pipeline Performance Bottleneck Pipe Turn Input Data Pipeline

Input Data Pipeline

Papers

cedar: Optimized and Unified Machine Learning Input Data Pipelines

Plumber: Diagnosing and Removing Performance Bottlenecks in Machine Learning Data Pipelines