Model Merging

Model merging combines multiple pre-trained or fine-tuned neural networks, often large language models (LLMs) or transformers, into a single, more capable model without retraining on original datasets. Current research focuses on improving merging techniques, particularly addressing parameter conflicts and efficiently handling diverse model architectures and scales, exploring methods like weight averaging, task arithmetic, and parameter competition balancing. This approach offers significant advantages, including reduced storage and computational costs, improved generalization, and the ability to integrate expertise from various sources, impacting both the efficiency of model development and the performance of downstream applications.

Papers

November 1, 2024

MoD: A Distribution-Based Approach for Merging Large Language Models
Quy-Anh Dang, Chris Ngo
Large Language Model Knowledge Transfer Model Merging Model Weight Mixed Task Distributional Model

October 31, 2024

Local Superior Soups: A Catalyst for Model Merging in Cross-Silo Federated Learning
Minghui Chen, Meirui Jiang, Xin Zhang, Qi Dou, Zehua Wang, Xiaoxiao Li
Pre Trained Model Model Merging Local Training

October 25, 2024

Model merging with SVD to tie the Knots
George Stoica, Pratik Ramesh, Boglarka Ecsedi, Leshem Choshen, Judy Hoffman
Fine Tuning Full Model Model Merging Singular Value Decomposition Knot Theory Merged Model LoRA Module

October 23, 2024

Closed-form merging of parameter-efficient modules for Federated Continual Learning
Riccardo Salami, Pietro Buzzega, Matteo Mosconi, Jacopo Bonato, Luigi Sabetta, Simone Calderara
Deep Learning Continual LEArning Federated Prompt Cooperation Low Rank Adaptation Model Merging Online Merging LoRA Fine Tuning Merged Model Parameter Efficient Module

October 22, 2024

LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging
Ke Wang, Nikolaos Dimitriadis, Alessandro Favero, Guillermo Ortiz-Jimenez, Francois Fleuret, Pascal Frossard
Domain Generalization Anti Forgetting Feature Enhancement Task Specific Large Pre Trained Model Model Merging Best Fit Line Task Specific Representation

October 19, 2024

Improving General Text Embedding Model: Tackling Task Conflict and Data Imbalance through Model Merging
Mingxin Li, Zhijie Nie, Yanzhao Zhang, Dingkun Long, Richong Zhang, Pengjun Xie
Language Model Full Model Text Embeddings Model Merging General Text Group Imbalance Task Vector

October 18, 2024

October 17, 2024

October 16, 2024

October 15, 2024

Representation Similarity: A Better Guidance of DNN Layer Sharing for Edge Computing without Training
Bryan Bo Cao, Abhinav Sharma, Manavjeet Singh, Anshul Gandhi, Samir Das, Shubham Jain
Training Data Edge Computing DNN Model Model Merging Human Guidance Representational Similarity Resource Constrained Edge

October 14, 2024

Mix Data or Merge Models? Optimizing for Diverse Multi-Task Learning
Aakanksha, Arash Ahmadian, Seraphina Goldfarb-Tarrant, Beyza Ermis, Marzieh Fadaee, Sara Hooker
Multilingual Model Model Merging Online Merging Multilingual Context Data Mixing

October 11, 2024

MergePrint: Robust Fingerprinting against Merging Large Language Models
Shojiro Yamabe, Tsubasa Takahashi, Futa Waseda, Koki Wataoka
Language Model Model Merging Merged Model

October 10, 2024

Merging in a Bottle: Differentiable Adaptive Merging (DAM) and the Path from Averaging to Automation
Thomas Gauthier-Caron, Shamane Siriwardhana, Elliot Stein, Malikeh Ehghaghi, Charles Goddard, Mark McQuade, Jacob Solawetz, Maxime Labonne
Language Model Decomposed Automation Correction Model Merging Online Merging

October 7, 2024

Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild
Xinyu Zhao, Guoheng Sun, Ruisi Cai, Yukun Zhou, Pingzhi Li, Peihao Wang, Bowen Tan, Yexiao He, Li Chen, Yi Liang, Beidi Chen, Binhang Yuan, Hongyi Wang, Ang Li, Zhangyang Wang, Tianlong Chen
Mixture Model Model Merging Heterogeneous Model Model Zoo Phonetically Noised Glue

October 4, 2024

What Matters for Model Merging at Scale?
Prateek Yadav, Tu Vu, Jonathan Lai, Alexandra Chronopoulou, Manaal Faruqui, Mohit Bansal, Tsendsuren Munkhdalai
Visual Analogue Scale Model Merging Online Merging Merged Model

Model Merging

Papers

MoD: A Distribution-Based Approach for Merging Large Language Models

Local Superior Soups: A Catalyst for Model Merging in Cross-Silo Federated Learning

Model merging with SVD to tie the Knots

Closed-form merging of parameter-efficient modules for Federated Continual Learning

LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging

Improving General Text Embedding Model: Tackling Task Conflict and Data Imbalance through Model Merging

SurgeryV2: Bridging the Gap Between Model Merging and Multi-Task Learning with Deep Representation Surgery

Collaboratively adding new knowledge to an LLM

Unconstrained Model Merging for Enhanced LLM Reasoning

Mitigating the Backdoor Effect for Multi-Task Model Merging via Safety-Aware Subspace

SoK: On Finding Common Ground in Loss Landscapes Using Deep Model Merging Techniques

The Non-Local Model Merging Problem: Permutation Symmetries and Variance Collapse

Exploring Model Kinship for Merging Large Language Models

Tracking Universal Features Through Fine-Tuning and Model Merging

Representation Similarity: A Better Guidance of DNN Layer Sharing for Edge Computing without Training

Mix Data or Merge Models? Optimizing for Diverse Multi-Task Learning

MergePrint: Robust Fingerprinting against Merging Large Language Models

Merging in a Bottle: Differentiable Adaptive Merging (DAM) and the Path from Averaging to Automation

Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild

What Matters for Model Merging at Scale?