Gradient Variance

Gradient variance, the variability in gradient estimates used to update model parameters during optimization, is a critical factor influencing the efficiency and stability of machine learning algorithms. Current research focuses on mitigating high gradient variance in various contexts, including adaptive gradient methods like Adam, federated learning, and differentially private training, often employing techniques like variance reduction, control variates, and careful batch size selection. Reducing gradient variance is crucial for improving the convergence speed and generalization performance of these algorithms, impacting the scalability and reliability of machine learning applications across diverse domains. This leads to more efficient training and improved model accuracy, particularly in large-scale and privacy-sensitive settings.

11papers

Papers

December 24, 2024

Beyond Gradient Averaging in Parallel Optimization: Improved Robustness through Gradient Agreement Filtering
Parallel Stochastic Parallel Optimization Better Robustness Natural Gradient Gradient Variance

December 16, 2024

Non-Convex Optimization in Federated Learning via Variance Reduction and Adaptive Learning
Slow Convergence Gradient Variance Adaptive Learning Variance Reduction Heterogeneous Data Non Convex Optimization

June 7, 2024

Convergence Analysis of Adaptive Gradient Methods under Refined Smoothness and Noise Assumptions
Noise Distribution Adaptive Gradient Method Convergence Analysis Stochastic Convex Optimization Gradient Descent Non Convex Stochastic Optimization Gradient Variance

May 4, 2024

PrivSGP-VR: Differentially Private Variance-Reduced Stochastic Gradient Push with Tight Utility Bounds
Decentralized Learning Dp SGD Differential Privacy Private Stochastic Gradient Descent Gradient Variance Differential Privacy Noise

February 29, 2024

Batch size invariant Adam
Mini Batch Consistency Batch Size Gradient Variance

February 6, 2024

Subsampling is not Magic: Why Large Batch Sizes Work for Differentially Private Stochastic Optimisation
Gradient Variance Private Stochastic Noise Estimation

October 26, 2023

Taming Gradient Variance in Federated Learning with Networked Control Variates
Gradient Variance Control Variate

March 18, 2023

Practical and Matching Gradient Variance Bounds for Black-Box Variational Bayesian Inference
Low Variance Gradient Gradient Variance Practical Application Stochastic Gradient Descent Log Likelihood Covariance Approximation Variational Inference Black Box Variational Inference

February 28, 2023

PA&DA: Jointly Sampling PAth and DAta for Consistent NAS
Raw Data Shot Na Gradient Variance Root to Leaf Path Supernet Training Gradient Norm

January 30, 2023

SoftTreeMax: Exponential Variance Reduction in Policy Gradient via Tree Search
Tree Search Policy Gradient Gradient Variance Softmax Function Variance Reduction

October 13, 2022

Joint control variate for faster black-box variational inference
Variational Inference Gradient Estimator Gradient Variance Control Variate Incremental Gradient

August 12, 2022

Gradient Estimation for Binary Latent Variables via Gradient Variance Clipping
Binary Latent Variable Gradient Estimation Discrete Latent Variable Gradient Estimator Gradient Variance Gradient Clipping Discrete Variational

June 13, 2022

Markov Chain Score Ascent: A Unifying Framework of Variational Inference with Markovian Gradients
Variational Inference Gradient Variance Stochastic Gradient Descent Unifying Framework Biased Gradient

Gradient Variance

Papers

Beyond Gradient Averaging in Parallel Optimization: Improved Robustness through Gradient Agreement Filtering

Non-Convex Optimization in Federated Learning via Variance Reduction and Adaptive Learning

Convergence Analysis of Adaptive Gradient Methods under Refined Smoothness and Noise Assumptions

PrivSGP-VR: Differentially Private Variance-Reduced Stochastic Gradient Push with Tight Utility Bounds

Batch size invariant Adam

Subsampling is not Magic: Why Large Batch Sizes Work for Differentially Private Stochastic Optimisation

Taming Gradient Variance in Federated Learning with Networked Control Variates

Practical and Matching Gradient Variance Bounds for Black-Box Variational Bayesian Inference

PA&DA: Jointly Sampling PAth and DAta for Consistent NAS

SoftTreeMax: Exponential Variance Reduction in Policy Gradient via Tree Search

Joint control variate for faster black-box variational inference

Gradient Estimation for Binary Latent Variables via Gradient Variance Clipping

Markov Chain Score Ascent: A Unifying Framework of Variational Inference with Markovian Gradients