Grokking Phenomenon

Grokking describes the surprising phenomenon where neural networks achieve high generalization accuracy on test data long after perfectly memorizing the training data, a period often characterized by initially poor test performance. Current research focuses on understanding the underlying mechanisms of this delayed generalization, exploring its occurrence across various model architectures (including MLPs, Transformers, and CNNs) and datasets, and investigating the role of factors like weight norms, feature learning, and optimization algorithms. This research is significant because it challenges existing theories of generalization and could lead to improved training strategies and a deeper understanding of neural network learning dynamics.

Papers

November 30, 2023

Dichotomy of Early and Late Phase Implicit Biases Can Provably Induce Grokking
Kaifeng Lyu, Jikai Jin, Zhiyuan Li, Simon S. Du, Jason D. Lee, Wei Hu
Implicit Bias Regression Task Margin Classifier Grokking Phenomenon Homogeneous Neural Network

November 11, 2023

Understanding Grokking Through A Robustness Viewpoint
Zhiquan Tan, Weiran Huang
Native Robustness Strong Generalization Information Theory Grokking Phenomenon

October 30, 2023

Bridging Lottery ticket and Grokking: Is Weight Norm Sufficient to Explain Delayed Generalization?
Gouki Minegishi, Yusuke Iwasawa, Yutaka Matsuo
Strong Generalization Lottery Ticket Lottery Ticket Hypothesis Dense Network Neural Network Generalization Grokking Phenomenon Weight Distribution Provable Generalization

October 26, 2023

Grokking Beyond Neural Networks: An Empirical Exploration with Model Complexity
Jack Miller, Charles O'Neill, Thang Bui
Neural Network Gaussian Process Bayesian Neural Network Model Complexity Grokking Phenomenon Non Neural

October 25, 2023

Grokking in Linear Estimators -- A Solvable Model that Groks without Understanding
Noam Levi, Alon Beck, Yohai Bar-Sinai
Generalization Performance Deeper Network Linear Estimator Grokking Phenomenon Linear Network Nonlinear Activation

October 19, 2023

To grok or not to grok: Disentangling generalization and memorization on corrupted algorithmic datasets
Darshil Doshi, Aritra Das, Tianyu He, Andrey Gromov
Deep Learning Strong Generalization Regularization Model Interpretable Model Limited Memorization Robust Generalization Grokking Phenomenon

October 9, 2023

October 5, 2023

Grokking as a First Order Phase Transition in Two Layer Networks
Noa Rubin, Inbar Seroussi, Zohar Ringel
Deep Learning Deep Neural Network Internal Representation Feature Learning Phase Transition Grokking Phenomenon Adaptive Kernel Network Layer

October 4, 2023

Benign Overfitting and Grokking in ReLU Networks for XOR Cluster Data
Zhiwei Xu, Yutong Wang, Spencer Frei, Gal Vardi, Wei Hu
Gradient Descent Model Overfitting ReLU Network Benign Overfitting Grokking Phenomenon Optimal Generalization Generalization Behavior

June 23, 2023

Predicting Grokking Long Before it Happens: A look into the loss landscape of models which grok
Pascal Jr. Tikeng Notsawo, Hattie Zhou, Mohammad Pezeshki, Irina Rish, Guillaume Dumas
Neural Network Full Model Model Overfitting Glance Annotation Loss Landscape Grokking Phenomenon Spectral Signature Learning Curve

May 30, 2023

Grokking of Hierarchical Structure in Vanilla Transformers
Shikhar Murty, Pratyusha Sharma, Jacob Andreas, Christopher D. Manning
Transformer Language Model Hierarchical Structure Grokking Phenomenon Vanilla Transformer Neural Sequence Model Shallow Transformer

March 10, 2023

Unifying Grokking and Double Descent
Xander Davies, Lauro Langosco, David Krueger
Strong Generalization Learning Dynamic Double Descent Grokking Phenomenon Dynamic Training

October 26, 2022

Grokking phase transitions in learning local rules with gradient descent
Bojan Žunkovič, Enej Ilievski
Gradient Descent Tensor Network Phase Transition Statistical Learning Theory Grokking Phenomenon Temporal Distribution Shift Local Rule

June 10, 2022

The Slingshot Mechanism: An Empirical Study of Adaptive Optimizers and the Grokking Phenomenon
Vimal Thilak, Etai Littwin, Shuangfei Zhai, Omid Saremi, Roni Paiss, Joshua Susskind
Strong Generalization Empirical Study Grokking Phenomenon Adaptive Optimizers Adaptive Gradient Training Instability

May 20, 2022

Towards Understanding Grokking: An Effective Theory of Representation Learning
Ziming Liu, Ouail Kitouni, Niklas Nolte, Eric J. Michaud, Max Tegmark, Mike Williams
Strong Generalization Representation Learning Structured Representation Grokking Phenomenon Effective Theory Learning Phase

May 19, 2022

GitRanking: A Ranking of GitHub Topics for Software Classification using Active Sampling
Cezar Sas, Andrea Capiluppi, Claudio Di Sipio, Juri Di Rocco, Davide Di Ruscio
Comprehensive Taxonomy Partial Ranking Grokking Phenomenon Active Sampling Diverse Domain GitHub Issue Software Classification Domain Classification

January 6, 2022

Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Alethea Power, Yuri Burda, Harri Edwards, Igor Babuschkin, Vedant Misra
Neural Network Deep Learning Strong Generalization Generalization Performance Model Overfitting Small Datasets Grokking Phenomenon