Model Generalization

Model generalization, the ability of a machine learning model to perform well on unseen data, is a central challenge in the field. Current research focuses on improving generalization through techniques like sharpness-aware minimization (finding flatter minima in the loss landscape), data augmentation (especially learnable augmentation to address bias), and coreset selection (using influence functions to identify the most informative training data). These efforts, often applied to various architectures including large language models and convolutional neural networks, aim to enhance model robustness and reliability across diverse datasets and real-world applications, ultimately leading to more trustworthy and effective AI systems.

Papers

April 28, 2023

An Adaptive Policy to Employ Sharpness-Aware Minimization
Weisen Jiang, Hansi Yang, Yu Zhang, James Kwok
Empirical Risk Minimization Sharpness Aware Minimization Model Generalization Loss Landscape Min Max Adaptive Policy

April 5, 2023

Performance of Data Augmentation Methods for Brazilian Portuguese Text Classification
Marcellus Amadeus, Paulo Branco
System Performance Model Generalization Data Augmentation Method Data Augmentation Technique

March 26, 2023

Generalization Matters: Loss Minima Flattening via Parameter Hybridization for Efficient Online Knowledge Distillation
Tianli Zhang, Mengqi Xue, Jiangtao Zhang, Haofei Zhang, Yu Wang, Lechao Cheng, Jie Song, Mingli Song
Strong Generalization Model Generalization Generalization Capability Online Knowledge Distillation Parameter Learning Loss Surface

March 23, 2023

Improving Generalization with Domain Convex Game
Fangrui Lv, Jian Liang, Shuang Li, Jinming Zhang, Di Liu
Strong Generalization Cross Domain Generalization Performance Distribution Generalization Model Generalization Convex Game

March 9, 2023

PDSketch: Integrated Planning Domain Programming and Learning
Jiayuan Mao, Tomás Lozano-Pérez, Joshua B. Tenenbaum, Leslie Pack Kaelbling
LeArning Abstract Model Generalization Model Learning Heuristic Learning

February 28, 2023

Improving Model Generalization by On-manifold Adversarial Augmentation in the Frequency Domain
Chang Liu, Wenzhao Xiang, Yuan He, Hui Xue, Shibao Zheng, Hang Su
Adversarial Example Model Generalization Frequency Domain Adversarial Augmentation Manifold Augmentation Manifold Adversarial

February 18, 2023

Beyond Distribution Shift: Spurious Features Through the Lens of Training Dynamics
Nihal Murali, Aahlad Puli, Ke Yu, Rajesh Ranganath, Kayhan Batmanghelich
Deep Neural Network Distribution Shift Camera Lens DNN Framework Training Dynamic Model Generalization Spurious Feature

February 8, 2023

CrossCodeBench: Benchmarking Cross-Task Generalization of Source Code Models
Changan Niu, Chuanyi Li, Vincent Ng, Bin Luo
Model Generalization Cross Task Generalization Source Code Model

February 3, 2023

ResMem: Learn what you can and memorize the rest
Zitong Yang, Michal Lukasik, Vaishnavh Nagarajan, Zonglin Li, Ankit Singh Rawat, Manzil Zaheer, Aditya Krishna Menon, Sanjiv Kumar
Model Generalization Rest RESTAD NAP D\'ej\`a Vu Memorization

January 24, 2023

Efficient learning of large sets of locally optimal classification rules
Van Quoc Phuong Huynh, Johannes Fürnkranz, Florian Beck
Large Scale Efficient Learning Model Generalization Optimal Classifier Greedy Approach Rule Learning Optimal Decision Rule Large Set

December 8, 2022

An Empirical Study on Multi-Domain Robust Semantic Segmentation
Yajie Liu, Pu Ge, Qingjie Liu, Shichao Fan, Yunhong Wang
Semantic Segmentation Data Augmentation Empirical Study Model Generalization Cross Domain Semantic Segmentation Domain Divergence

November 7, 2022

Using Deep Mixture-of-Experts to Detect Word Meaning Shift for TempoWiC
Ze Chen, Kangxu Wang, Zijian Cai, Jiewen Zheng, Jiarong He, Max Gao, Jason Zhang
Mixture of Expert Semantic Representation Model Generalization Semantic Feature Semantic Shift Temporal Task

November 4, 2022

The Benefits of Model-Based Generalization in Reinforcement Learning
Kenny Young, Aditya Ramesh, Louis Kirsch, Jürgen Schmidhuber
Reinforcement Learning Model Based Reinforcement Learning Complementary Benefit Model Generalization Experience Replay Model Learning Learned Model

November 1, 2022

SADT: Combining Sharpness-Aware Minimization with Self-Distillation for Improved Model Generalization
Masud An-Nur Islam Fahim, Jani Boutellier
Self Distillation Sharpness Aware Minimization Model Generalization Model Generalizability Teacher Student Distillation

October 25, 2022

October 24, 2022

Data-IQ: Characterizing subgroups with heterogeneous outcomes in tabular data
Nabeel Seedat, Jonathan Crabbé, Ioana Bica, Mihaela van der Schaar
Tabular Data Model Generalization Medical Datasets Heterogeneous Effect Subgroup Description

October 22, 2022

Hard Gate Knowledge Distillation -- Leverage Calibration for Robust and Reliable Language Model
Dongkyu Lee, Zhiliang Tian, Yingxiu Zhao, Ka Chun Cheung, Nevin L. Zhang
Knowledge Distillation Language Generation Robust Version Model Generalization

October 13, 2022

Sample Efficient Dynamics Learning for Symmetrical Legged Robots:Leveraging Physics Invariance and Geometric Symmetries
Jee-eun Lee, Jaemin Lee, Tirthankar Bandyopadhyay, Luis Sentis
Strong Generalization Robot Control Model Generalization Learned Dynamic Inverse Dynamic Model

October 11, 2022

Improving Sharpness-Aware Minimization with Fisher Mask for Better Generalization on Language Models
Qihuang Zhong, Liang Ding, Li Shen, Peng Mi, Juhua Liu, Bo Du, Dacheng Tao
Language Model Sharpness Aware Minimization Model Generalization Better Generalization Better Optimizers Sparse Perturbation