Cross Modal Distillation

Cross-modal distillation aims to improve the performance of models trained on a limited or less informative modality (e.g., images from event cameras, sparse point clouds) by leveraging knowledge from a richer modality (e.g., LiDAR data, high-resolution images). Current research focuses on developing effective distillation strategies, often employing techniques like contrastive learning, attention mechanisms, and adaptive fusion methods within various architectures, including vision transformers and dual-encoder models. This approach is particularly valuable in scenarios with limited labeled data or high annotation costs, impacting diverse fields such as medical image analysis, autonomous driving, and industrial anomaly detection. The resulting improvements in model accuracy and efficiency have significant implications for practical applications and advance the understanding of knowledge transfer across different data representations.

Papers

August 5, 2023

Cross-modal & Cross-domain Learning for Unsupervised LiDAR Semantic Segmentation
Yiyang Chen, Shanshan Zhao, Changxing Ding, Liyao Tang, Chaoyue Wang, Dacheng Tao
Domain Adaptation Multi Modal Cross Domain Cross Modal Distillation Lidar Point Cloud Data Multimodal Guidance Semi Supervised LiDAR

May 28, 2023

ConaCLIP: Exploring Distillation of Fully-Connected Knowledge Interaction Graph for Lightweight Text-Image Retrieval
Jiapeng Wang, Chengyu Wang, Xiaodan Wang, Jun Huang, Lianwen Jin
Knowledge Distillation Mutual Distillation Image Text Retrieval Cross Modal Distillation Pre Trained Text to Image Dual Encoder Architecture Modality Compression

May 24, 2023

AV-TranSpeech: Audio-Visual Robust Speech-to-Speech Translation
Rongjie Huang, Huadai Liu, Xize Cheng, Yi Ren, Linjun Li, Zhenhui Ye, Jinzheng He, Lichao Zhang, Jinglin Liu, Xiang Yin, Zhou Zhao
Cross Modal Distillation Direct Speech to Speech Translation Visual Speech

April 28, 2023

The Emotions of the Crowd: Learning Image Sentiment from Tweets via Cross-modal Distillation
Alessio Serra, Fabio Carrara, Maurizio Tesconi, Fabrizio Falchi
Sentiment Analysis Experienced Emotion Twitter Tweet Sentiment Polarity Crowded Environment Cross Modal Distillation Image Sentiment

April 18, 2023

PointDC:Unsupervised Semantic Segmentation of 3D Point Clouds via Cross-modal Distillation and Super-Voxel Clustering
Zisheng Chen, Hongbin Xu, Weitao Chen, Zhipeng Zhou, Haihong Xiao, Baigui Sun, Xuansong Xie, Wenxiong Kang
Semantic Segmentation Point Cloud 3D Point Cloud Unsupervised Semantic Segmentation Cross Modal Distillation Point Representation Point Feature

April 16, 2023

Robust Cross-Modal Knowledge Distillation for Unconstrained Videos
Wenke Xia, Xingjian Li, Andong Deng, Haoyi Xiong, Dejing Dou, Di Hu
Multimodal Context Cross Modal Distillation Cross Modal Knowledge Distillation Unconstrained Video Target Modality Noisy Modality

March 30, 2023

Decomposed Cross-modal Distillation for RGB-based Temporal Action Detection
Pilhyeon Lee, Taeoh Kim, Minho Shim, Dongyoon Wee, Hyeran Byun
Temporal Action Detection Motion Representation Action Localization Cross Modal Distillation

March 3, 2023

X$^3$KD: Knowledge Distillation Across Modalities, Tasks and Stages for Multi-Camera 3D Object Detection
Marvin Klingner, Shubhankar Borse, Varun Ravi Kumar, Behnaz Rezaei, Venkatraman Narayanan, Senthil Yogamani, Fatih Porikli
3D Object Detection New Task Multi Camera Cross Modal Distillation Cross Modal Knowledge Distillation Multi Camera 3D Object Detection Multiple Stage

February 16, 2023

Cross Modal Distillation for Flood Extent Mapping
Shubhika Garg, Ben Feinstein, Shahar Timnat, Vishal Batchu, Gideon Dror, Adi Gerzi Rosenthal, Varun Gulshan
Machine Learning Cross Modal Distillation Flood Detection

January 4, 2023

StereoDistill: Pick the Cream from LiDAR for Distilling Stereo-based 3D Object Detection
Zhe Liu, Xiaoqing Ye, Xiao Tan, Errui Ding, Xiang Bai
Mid Range LiDAR 3D Detection Cross Modal Distillation Logit Distillation 3D Object Detection Distillation Based 3D

November 30, 2022

Coordinating Cross-modal Distillation for Molecular Property Prediction
Hao Zhang, Nan Zhang, Ruixin Zhang, Lei Shen, Yingyi Zhang, Meng Liu
Molecular Graph Molecular Property Prediction Cross Modal Distillation Atomic Knowledge

November 17, 2022

BEVDistill: Cross-Modal BEV Distillation for Multi-View 3D Object Detection
Zehui Chen, Zhenyu Li, Shiquan Zhang, Liangji Fang, Qinhong Jiang, Feng Zhao
3D Object Detection Cross Modal Distillation Multi View 3D Multi View 3D Object Detection Lidar Based Detector Lidar Feature

October 19, 2022

Cross-Modal Fusion Distillation for Fine-Grained Sketch-Based Image Retrieval
Abhra Chaudhuri, Massimiliano Mancini, Yanbei Chen, Zeynep Akata, Anjan Dutta
Fine Grained Cross Attention Cross Modal Retrieval Fusion Network Cross Modal Distillation Sketch Based Image Retrieval Fine Grained Sketch

October 12, 2022

Text-Derived Knowledge Helps Vision: A Simple Cross-modal Distillation for Video-based Action Anticipation
Sayontan Ghosh, Tanvi Aggarwal, Minh Hoai, Niranjan Balasubramanian
Vision Paper Action Sequence Action Anticipation Cross Modal Distillation Anticipative Transformer

August 26, 2022

CMD: Self-supervised 3D Action Representation Learning with Cross-modal Mutual Distillation
Yunyao Mao, Wengang Zhou, Zhenbo Lu, Jiajun Deng, Houqiang Li
Action Recognition Cross Modal Interaction Cross Modal Distillation 3D Action Representation Learning

August 11, 2022

Seeing your sleep stage: cross-modal distillation from EEG to infrared video
Jianan Han, Shaoxing Zhang, Aidong Men, Yang Liu, Ziming Yao, Yan Yan, Qingchao Chen
Cross Modal Distillation Sleep Stage Classification Sleep Data Infrared Video

July 7, 2022

PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal Distillation for 3D Shape Recognition
Qijian Zhang, Junhui Hou, Yue Qian
Point Cloud 2 Dimensional Point Based Cross Modal Distillation 3D Object Recognition Point Embeddings

March 21, 2022

Drive&Segment: Unsupervised Semantic Segmentation of Urban Scenes via Cross-modal Distillation
Antonin Vobecky, David Hurych, Oriane Siméoni, Spyros Gidaris, Andrei Bursuc, Patrick Pérez, Josef Sivic
Semantic Segmentation Cross Modal Pixel Level Unsupervised Semantic Segmentation Cross Modal Distillation Semantic Image Segmentation Object Proposal Urban Scene

January 18, 2022

Cross-modal Contrastive Distillation for Instructional Activity Anticipation
Zhengyuan Yang, Jingen Liu, Jing Huang, Xiaodong He, Tao Mei, Chenliang Xu, Jiebo Luo
Knowledge Distillation Cross Modal Distillation Action Label Anticipation Task

December 16, 2021

Distilled Dual-Encoder Model for Vision-Language Understanding
Zekun Wang, Wenhui Wang, Haichao Zhu, Ming Liu, Bing Qin, Furu Wei
Vision Language Understanding Cross Modal Distillation Dual Encoder Model

Cross Modal Distillation

Papers

Cross-modal & Cross-domain Learning for Unsupervised LiDAR Semantic Segmentation

ConaCLIP: Exploring Distillation of Fully-Connected Knowledge Interaction Graph for Lightweight Text-Image Retrieval

AV-TranSpeech: Audio-Visual Robust Speech-to-Speech Translation

The Emotions of the Crowd: Learning Image Sentiment from Tweets via Cross-modal Distillation

PointDC:Unsupervised Semantic Segmentation of 3D Point Clouds via Cross-modal Distillation and Super-Voxel Clustering

Robust Cross-Modal Knowledge Distillation for Unconstrained Videos

Decomposed Cross-modal Distillation for RGB-based Temporal Action Detection

X$^3$KD: Knowledge Distillation Across Modalities, Tasks and Stages for Multi-Camera 3D Object Detection

Cross Modal Distillation for Flood Extent Mapping

StereoDistill: Pick the Cream from LiDAR for Distilling Stereo-based 3D Object Detection

Coordinating Cross-modal Distillation for Molecular Property Prediction

BEVDistill: Cross-Modal BEV Distillation for Multi-View 3D Object Detection

Cross-Modal Fusion Distillation for Fine-Grained Sketch-Based Image Retrieval

Text-Derived Knowledge Helps Vision: A Simple Cross-modal Distillation for Video-based Action Anticipation

CMD: Self-supervised 3D Action Representation Learning with Cross-modal Mutual Distillation

Seeing your sleep stage: cross-modal distillation from EEG to infrared video

PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal Distillation for 3D Shape Recognition

Drive&Segment: Unsupervised Semantic Segmentation of Urban Scenes via Cross-modal Distillation

Cross-modal Contrastive Distillation for Instructional Activity Anticipation

Distilled Dual-Encoder Model for Vision-Language Understanding