Multi-modal Deep Learning [2403.03385]