Vision Compression

Vision compression aims to reduce the computational burden and storage requirements of visual data, enabling efficient processing of high-resolution images and videos for various applications. Current research focuses on integrating compression directly into deep learning models, such as leveraging large language models to learn efficient representations of visual information or employing a priori compression techniques within convolutional neural networks. These advancements are crucial for scaling up video understanding tasks, particularly those involving long videos, and for deploying complex vision models on resource-constrained devices.

Papers

June 18, 2024

VoCo-LLaMA: Towards Vision Compression with Large Language Models
Xubing Ye, Yukang Gan, Xiaoke Huang, Yixiao Ge, Ying Shan, Yansong Tang
Vision Language Model Visual Token Token Compression Vision Compression

April 11, 2023

A priori compression of convolutional neural networks for wave simulators
Hamza Boukraichi, Nissrine Akkari, Fabien Casenave, David Ryckelynck
Convolutional Neural Network CNN Model Convolution Layer Classical Convolutional Neural Network Wave Simulator Vision Compression

October 6, 2022

Compressed Vision for Efficient Video Understanding
Olivia Wiles, Joao Carreira, Iain Barr, Andrew Zisserman, Mateusz Malinowski
Computer Vision Video Understanding Long Video Neural Compression Super Network Vision Compression

Vision Compression

Papers

VoCo-LLaMA: Towards Vision Compression with Large Language Models

A priori compression of convolutional neural networks for wave simulators

Compressed Vision for Efficient Video Understanding