the latest in aiBeta

Low Rank Compression

Low-rank compression aims to reduce the size and computational cost of large machine learning models, such as transformers, convolutional neural networks, and large language models, without significantly sacrificing performance. Current research focuses on developing efficient algorithms for low-rank matrix factorization and decomposition, often incorporating techniques like adaptive compression, Bayesian optimization, and error feedback to improve accuracy and speed. These advancements are crucial for deploying sophisticated models on resource-constrained devices and improving the efficiency of training and inference in various applications, including speech recognition, recommendation systems, and computer vision. The resulting compact models offer significant benefits in terms of reduced energy consumption and faster processing times.

14papers

Papers

May 22, 2025

R1-Compress: Long Chain-of-Thought Compression via Chunk Compression and Search
Yibo Wang, Li Shen, Huanjin Yao, Tiansheng Huang, Rui Liu, Naiqiang Tan, Jiaxing Huang, Kai Zhang, Dacheng Tao
Tsinghua University●Sun Yat-sen University●Didichuxing Co. Ltd●Nanyang Technological University
Low Rank Compression Search Query Chain of Thought Large Language Model Dataset Compression Chunk Wise

April 25, 2025

Low-Rank Matrix Approximation for Neural Network Compression
Kalyan Cherukuri, Aarav Lala
Illinois Mathematics and Science Academy
Adaptive Ranking Matrix Approximation Model Compression Neural Network Compression Layer Selective Rank Reduction Singular Value Decomposition Low Rank Compression

March 3, 2025

EliteKV: Scalable KV Cache Compression via RoPE Frequency Selection and Joint Low-Rank Projection
Yuhao Zhou, Sirui Song, Boyang Liu, Zhiheng Xi, Senjie Jin, Xiaoran Fan, Zhihao Zhang, Wei Li, Xuanjing Huang
Fudan University
Rotary Position Projection Bias Low Rank Compression Key Value Cache Compression Joint Framework Attention Computation Key Value Cache

February 27, 2025

LiteASR: Efficient Automatic Speech Recognition with Low-Rank Approximation
Keisuke Kamahori, Jungo Kasai, Noriyuki Kojima, Baris Kasikci
University of Washington●Kotoba Technologies Inc.
Average Approximation Automatic Speech Recognition Encoder Decoder Low Rank Compression

February 10, 2025

Low-Rank Compression for IMC Arrays
Kang Eun Jeon, Johnny Rhe, Jong Hwan Ko
Low Rank Compression Memory Computing Linear Compression

February 4, 2025

Theoretical Guarantees for Low-Rank Compression of Deep Neural Networks
Shihao Zhang, Rayan Saab
Low Rank Compression Low Rank Approximation Linear Compression Deep Neural Network Low Rank Structure Theoretical Guarantee

January 7, 2025

Powerful Design of Small Vision Transformer on CIFAR10
Gent Wu
Vision Transformer Convolutional Neural Network Low Rank Compression Efficient Design Multi Head Attention

December 13, 2024

ScaleOT: Privacy-utility-scalable Offsite-tuning with Dynamic LayerReplace and Selective Rank Compression
Kai Yao, Zhaorui Tan, Tiandi Ye, Lichun Li, Yuan Zhao, Wenyan Liu, Wei Wang, Jianke Zhu
Low Rank Compression Multi Layer Model Privacy Network Growth Private Fine Tuning

September 13, 2024

Anytime Continual Learning for Open Vocabulary Classification
Zhen Zhu, Yiming Gong, Derek Hoiem
Open Vocabulary Low Rank Compression

June 13, 2024

AdaPTwin: Low-Cost Adaptive Compression of Product Twins in Transformers
Emil Biju, Anirudh Sriram, Mert Pilanci
Low Rank Compression Transformer Attention Transformer Megatron Decepticons Transformer Based Model Adaptive Compression Speaker Independent Whisper Model

May 28, 2024

Unified Low-rank Compression Framework for Click-through Rate Prediction
Hao Yu, Minghao Fu, Jiandong Ding, Yusheng Zhou, Jianxin Wu
Click Through Rate Prediction Low Rank Compression

May 24, 2024

Basis Selection: Low-Rank Decomposition of Pretrained Large Language Models for Target Applications
Yang Li, Changsheng Zhao, Hyungtak Lee, Ernie Chang, Yangyang Shi, Vikas Chandra
Low Rank Compression Low Rank Decomposition Multiple Target Microbial Decomposition Deep Compression Pre Trained Large Language Model Large Language Model Inference Cost

May 17, 2024

Adaptive Feature-based Low-Rank Compression of Large Language Models via Bayesian Optimization
Yixin Ji, Yang Xiang, Juntao Li, Qingrong Xia, Zi Ye, Xinyu Duan, Zhefeng Wang, Kehai Chen, Min Zhang
Low Rank Compression Bayesian Optimization Large Language Model Low Rank Factorization

February 8, 2024

Memory-Efficient Vision Transformers: An Activation-Aware Mixed-Rank Compression Strategy
Seyedarmin Azizi, Mahdi Nazemi, Massoud Pedram
Memory Efficient Low Rank Compression Model Compression Tensor Approximation Vision Transformer Rank Adaptive Tensor Optimization

January 18, 2024

ELRT: Efficient Low-Rank Training for Compact Convolutional Neural Networks
Yang Sui, Miao Yin, Yu Gong, Jinqi Xiao, Huy Phan, Bo Yuan
Training Data Low Rank Low Rank Training Low Rank Compression

January 15, 2024

Efficient Wireless Federated Learning via Low-Rank Gradient Factorization
Mingzhao Guo, Dongzhu Liu, Osvaldo Simeone, Dingzhu Wen
Error Feedback Federated Learning Low Rank Compression Multiple Input Multiple Output Gradient Compression Matrix Factorization Air Computation

August 28, 2023

Maestro: Uncovering Low-Rank Structures via Trainable Decomposition
Samuel Horvath, Stefanos Laskaridis, Shashank Rajput, Hongyi Wang
Simple Structure Low Rank Structure Learning Decomposition Low Rank Compression Low Rank DNN Architecture

June 9, 2023

Error Feedback Can Accurately Compress Preconditioners
Ionut-Vlad Modoranu, Aleksei Kalinov, Eldar Kurtic, Elias Frantar, Dan Alistarh
Adaptive Preconditioner Low Rank Compression Error Feedback Full Matrix AdaGrad

June 4, 2023

Riemannian Low-Rank Model Compression for Federated Learning with Over-the-Air Aggregation
Ye Xue, Vincent Lau
Low Rank Compression Model Compression Low Rank Riemannian Geometry Approach Air Aggregation Low Dimensional Manifold Low Rank Constraint

January 20, 2023

HALOC: Hardware-Aware Automatic Low-Rank Compression for Compact Neural Networks
Jinqi Xiao, Chengming Zhang, Yu Gong, Miao Yin, Yang Sui, Lizhi Xiang, Dingwen Tao, Bo Yuan
Low Rank Compression Compact Neural Network Model Compression