Scaling Law

Scaling laws in machine learning aim to quantify the relationship between a model's performance and factors like its size, training data volume, and computational resources. Current research focuses on refining these laws across diverse model architectures, including transformers (both encoder-decoder and decoder-only), and optimization algorithms like SGD and AdamW, investigating their applicability to various tasks such as language modeling, translation, and image classification. Understanding these scaling laws is crucial for optimizing resource allocation in model development, improving training efficiency, and guiding the design of future, more powerful AI systems. Furthermore, the principles are being extended to explore economic productivity and the impact of data quality.

Papers

August 7, 2024

Scaling Law of Sim2Real Transfer Learning in Expanding Computational Materials Databases for Real-World Predictions
Shunya Minami, Yoshihiro Hayashi, Stephen Wu, Kenji Fukumizu, Hiroki Sugisawa, Masashi Ishii, Isao Kuwajima, Kazuya Shiratori, Ryo Yoshida
Scaling Law Molecular Dynamic Numerical Experiment High Throughput Material Data Sim2Real Learning

August 6, 2024

Data Poisoning in LLMs: Jailbreak-Tuning and Scaling Laws
Dillon Bowen, Brendan Murphy, Will Cai, David Khachaturov, Adam Gleave, Kellin Pelrine
Fine Tuning Medical LLM Scaling Law Data Poisoning Harmful Data Contaminated Data

July 25, 2024

Scaling Training Data with Lossy Image Compression
Katherine L. Mentzer, Andrea Montanari
Machine Learning Model Image Compression Scaling Law Lossy Compression Lossy Image Compression Data Scaling

July 18, 2024

Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies
Chaofan Tao, Qian Liu, Longxu Dou, Niklas Muennighoff, Zhongwei Wan, Ping Luo, Min Lin, Ngai Wong
Large Language Model Large Model Scaling Law Enhanced Vocabulary Large Vocabulary Vocabulary Size

July 11, 2024

Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On
Liang Zeng, Liangjun Zhong, Liang Zhao, Tianwen Wei, Liu Yang, Jujie He, Cheng Cheng, Rui Hu, Yang Liu, Shuicheng Yan, Han Fang, Yahui Zhou
Mathematical Reasoning Scaling Law Written Story MATH Dataset

July 10, 2024

Scaling Law in Neural Data: Non-Invasive Speech Decoding with 175 Hours of EEG Data
Motoshige Sato, Kenichi Tomeoka, Ilya Horiguchi, Kai Arulkumaran, Ryota Kanai, Shuntaro Sasai
Scaling Law EEG Data Temporal Data Non Invasive EEG Representation

July 1, 2024

On Implications of Scaling Laws on Feature Superposition
Pavan Katta
Theoretical Analysis Scaling Law Feature Representation Future Implication Sparse Feature First Order Superposition

June 29, 2024

LLM-Generated Natural Language Meets Scaling Laws: New Explorations and Data Augmentation Methods
Zhenhua Wang, Guang Xu, Ming Ren
Large Language Model Language Model Natural Language Processing Natural Language Scaling Law Data Augmentation Method Novel Data Augmentation

June 27, 2024

Resolving Discrepancies in Compute-Optimal Scaling of Language Models
Tomer Porian, Mitchell Wortsman, Jenia Jitsev, Ludwig Schmidt, Yair Carmon
Language Model Learning Rate Scaling Law Model Size Task Discrepancy Optimal Scaling

June 24, 2024

Scaling Laws for Linear Complexity Language Models
Xuyang Shen, Dong Li, Ruitao Leng, Zhen Qin, Weigao Sun, Yiran Zhong
Large Language Model Scaling Law Linear RNN Linear Attention Model

June 22, 2024

Scaling Laws for Fact Memorization of Large Language Models
Xingyu Lu, Xiaonan Li, Qinyuan Cheng, Kai Ding, Xuanjing Huang, Xipeng Qiu
Language Model Scaling Law Knowledge Memorization

June 21, 2024

Uni-Mol2: Exploring Molecular Pretraining Model at Scale
Xiaohong Ji, Zhen Wang, Zhifeng Gao, Hang Zheng, Linfeng Zhang, Guolin Ke, Weinan E
Visual Analogue Scale Scaling Law Molecular Pre Stream Transformer

June 12, 2024

Scaling Laws in Linear Regression: Compute, Parameters, and Data
Licong Lin, Jingfeng Wu, Sham M. Kakade, Peter L. Bartlett, Jason D. Lee
Raw Data Many Parameter Scaling Law Linear Regression Neural Scaling Law

June 11, 2024

Scaling Large-Language-Model-based Multi-Agent Collaboration
Chen Qian, Zihao Xie, Yifei Wang, Wei Liu, Yufan Dang, Zhuoyun Du, Weize Chen, Cheng Yang, Zhiyuan Liu, Maosong Sun
Scaling Law Multiplicative Size Scaling Multi Agent Collaboration

June 5, 2024

Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms
Rafael Rafailov, Yaswanth Chittepu, Ryan Park, Harshit Sikchi, Joey Hejna, Bradley Knox, Chelsea Finn, Scott Niekum
Scaling Law Alignment Algorithm Proxy Reward Reward Overoptimization

May 30, 2024

Scaling Laws for the Value of Individual Data Points in Machine Learning
Ian Covert, Wenlong Ji, Tatsunori Hashimoto, James Zou
Machine Learning Scaling Law Net Present Value Field Data Scaling Behavior

May 29, 2024

Neural Scaling Laws From Large-N Field Theory: Solvable Model Beyond the Ridgeless Limit
Zhengkang Zhang
Scaling Law Field Theory Neural Scaling Law Ridgeless Regression

May 28, 2024

Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations
Alexander Hägele, Elie Bakouch, Atli Kosson, Loubna Ben Allal, Leandro Von Werra, Martin Jaggi
Learning Rate Scaling Law Scaling Behavior Stochastic Weight Averaging Training Compute

May 27, 2024

The Scaling Law in Stellar Light Curves
Jia-Shu Pan, Yuan-Sen Ting, Yang Huang, Jie Yu, Ji-Feng Liu
Time Series Scaling Law Large Scale Generative Model Stellar Parameter

May 26, 2024

gzip Predicts Data-dependent Scaling Laws
Rohan Pandey
Language Model Scaling Law Data Complexity