Multimodal System

Multimodal systems integrate data from multiple sources (e.g., audio, video, text) to achieve tasks beyond the capabilities of single-modality approaches. Current research focuses on improving model architectures like two-tower systems and large language models (LLMs) for tasks such as action recognition, emotion detection, and design generation, often employing techniques like multimodal fusion and attention mechanisms. This field is significant for its potential to create more robust, accurate, and human-centered applications across diverse domains, from healthcare and assistive technologies to urban planning and online safety.

Papers

June 15, 2023

Multi-modal Hate Speech Detection using Machine Learning
Fariha Tahosin Boishakhi, Ponkoj Chandra Shill, Md. Golam Rabiul Alam
Machine Learning Hate Speech Hateful Content Speech Detection Multimodal System

May 12, 2023

Versatile Audio-Visual Learning for Handling Single and Multi Modalities in Emotion Regression and Classification Tasks
Lucas Goncalves, Seong-Gyun Leem, Wei-Cheng Lin, Berrak Sisman, Carlos Busso
Classification Task Multimodal Emotion Recognition Versatile Approach Multimodal System Audio Visual Learning Emotion Regression

April 30, 2023

Deep Learning Based Multimodal with Two-phase Training Strategy for Daily Life Video Classification
Lam Pham, Trang Le, Cam Le, Dat Ngo, Weissenfeld Axel, Alexander Schindler
Deep Learning Multimodal Phenomenon Video Classification Audio Data Audio Embeddings Two Stage Training Visual Embeddings Multimodal System

March 13, 2023

Multimodal Reinforcement Learning for Robots Collaborating with Humans
Afagh Mehri Shervedani, Siyu Li, Natawut Monaikul, Bahareh Abbasi, Barbara Di Eugenio, Milos Zefran
Reinforcement Learning Non Humanoid Robot Real Human Robot Policy Multimodal System Multimodal Reinforcement Learning Robot Assistant

April 27, 2022

Improving Multimodal Speech Recognition by Data Augmentation and Speech Representations
Dan Oneata, Horia Cucu
Data Augmentation Automatic Speech Recognition Speech Recognition Speech Representation Multimodal Dataset Multimodal System Speech Data Augmentation

March 14, 2022

Extracting associations and meanings of objects depicted in artworks through bi-modal deep networks
Gregory Kell, Ryan-Rhys Griffiths, Anthony Bourached, David G. Stork
Multi Modal Deep Network Arbitrary Object Multiple Meaning Abstract Meaning Representation Multimodal System Symbol Description

February 7, 2022

Speech Emotion Recognition using Self-Supervised Features
Edmilson Morais, Ron Hoory, Weizhong Zhu, Itai Gat, Matheus Damasceno, Hagai Aronowitz
Self Supervised Speech Emotion Recognition Utterance Level Multimodal System Categorical Emotion

January 23, 2022

Supervised Visual Attention for Simultaneous Multimodal Machine Translation
Veneta Haralampieva, Ozan Caglayan, Lucia Specia
Attention Mechanism Simultaneous Machine Translation Multimodal Machine Translation Multimodal System Supervised Attention

December 17, 2021

A Multimodal Approach for Automatic Mania Assessment in Bipolar Disorder
Pınar Baki
Multimodal Approach Multimodal System Multimodal Decision

December 15, 2021

Joint Demand Prediction for Multimodal Systems: A Multi-task Multi-relational Spatiotemporal Graph Neural Network Approach
Yuebing Liang, Guan Huang, Zhan Zhao
Multi Task Time Series Forecasting Joint predictioN Demand Forecasting Multimodal System Spatiotemporal Graph Spatiotemporal Correlation Spatiotemporal Graph Neural Network

Multimodal System

Papers

Multi-modal Hate Speech Detection using Machine Learning

Versatile Audio-Visual Learning for Handling Single and Multi Modalities in Emotion Regression and Classification Tasks

Deep Learning Based Multimodal with Two-phase Training Strategy for Daily Life Video Classification

Multimodal Reinforcement Learning for Robots Collaborating with Humans

Improving Multimodal Speech Recognition by Data Augmentation and Speech Representations

Extracting associations and meanings of objects depicted in artworks through bi-modal deep networks

Speech Emotion Recognition using Self-Supervised Features

Supervised Visual Attention for Simultaneous Multimodal Machine Translation

A Multimodal Approach for Automatic Mania Assessment in Bipolar Disorder

Joint Demand Prediction for Multimodal Systems: A Multi-task Multi-relational Spatiotemporal Graph Neural Network Approach