Multi Modal Facial Expression Recognition with Transformer-Based Fusion Networks and Dynamic Sampling [2303.08419]