Multimodal Approach

Multimodal approaches in machine learning integrate data from multiple sources (e.g., text, images, audio) to improve model performance and understanding compared to using single modalities. Current research focuses on developing and applying multimodal models, often leveraging transformer architectures like BERT and ResNet, along with techniques like attention mechanisms and fusion strategies (early, mid, late fusion) to effectively combine diverse data types. This methodology is proving valuable across numerous fields, including healthcare (e.g., disease diagnosis, medical question summarization), e-commerce (e.g., product recommendation), and safety (e.g., autonomous driving, road surface detection), by providing more robust and nuanced insights than unimodal methods.

Papers

July 5, 2023

Exploring Multimodal Approaches for Alzheimer's Disease Detection Using Patient Speech Transcript and Audio Data
Hongmin Cai, Xiaoke Huang, Zhengliang Liu, Wenxiong Liao, Haixing Dai, Zihao Wu, Dajiang Zhu, Hui Ren, Quanzheng Li, Tianming Liu, Xiang Li
Contrastive Learning Pre Trained Language Model Speech Analysis Alzheimer'S Disease Disease Detection Multimodal Approach Audio Data Clinical Narrative

June 23, 2023

A Survey on Multimodal Large Language Models
Shukang Yin, Chaoyou Fu, Sirui Zhao, Ke Li, Xing Sun, Tong Xu, Enhong Chen
Timely Survey Multimodal Large Language Model Multimodal Task Multimodal Approach Multimodal Application

June 22, 2023

Beyond Chemical Language: A Multimodal Approach to Enhance Molecular Property Prediction
Eduardo Soares, Emilio Vital Brazil, Karen Fiorela Aquino Gutierrez, Renato Cerqueira, Dan Sanders, Kristin Schmidt, Dmitry Zubarev
Molecular Property Prediction Multimodal Approach Molecular Embeddings Chemical Language

May 25, 2023

Context-aware attention layers coupled with optimal transport domain adaptation and multimodal fusion methods for recognizing dementia from spontaneous speech
Loukas Ilias, Dimitris Askounis
Alzheimer'S Disease Multimodal Fusion Attention Network Self Attention Layer Acoustic Model Multimodal Approach Spontaneous Speech Dementia Related Linguistic Anomaly

May 23, 2023

May 15, 2023

Continual Multimodal Knowledge Graph Construction
Xiang Chen, Jintian Zhang, Xiaohan Wang, Ningyu Zhang, Tongtong Wu, Yuxiang Wang, Yongheng Wang, Huajun Chen
Continual Learning Multimodal Approach Knowledge Space Multimodal Knowledge Graph Construction

January 29, 2023

Global Flood Prediction: a Multimodal Machine Learning Approach
Cynthia Zeng, Dimitris Bertsimas
Multimodal Approach Natural Disaster Multimodal Machine Learning Multimodal Framework Global River Flood Prediction

January 22, 2023

MATT: Multimodal Attention Level Estimation for e-learning Platforms
Roberto Daza, Luis F. Gomez, Aythami Morales, Julian Fierrez, Ruben Tolosana, Ruth Cobos, Javier Ortega-Garcia
Face Recognition Diverse Platform Multimodal Approach Eye Blink Attention Level

December 15, 2022

Ring That Bell: A Corpus and Method for Multimodal Metaphor Detection in Videos
Khalid Alnajjar, Mika Hämäläinen, Shuo Zhang
Large Corpus Gameplay Video Practical Method Multimodal Approach Multimodal Chart Topic Specific Metaphor Metaphor Use Near Ring Text Based Model

November 8, 2022

A Multimodal Approach for Dementia Detection from Spontaneous Speech with Tensor Fusion Layer
Loukas Ilias, Dimitris Askounis, John Psarras
Cross Modal BERT Model Multimodal Approach Spontaneous Speech Dementia Detection Modality Interaction Tensor Fusion

November 3, 2022

When to Laugh and How Hard? A Multimodal Approach to Detecting Humor and its Intensity
Khalid Alnajjar, Mika Hämäläinen, Jörg Tiedemann, Jorma Laaksonen, Mikko Kurimo
Multimodal Data Multimodal Approach Human Humor Intensity Confusion

July 14, 2022

Inertial Hallucinations -- When Wearable Inertial Devices Start Seeing Things
Alessandro Masullo, Toby Perrett, Tilo Burghardt, Ian Craddock, Dima Damen, Majid Mirmehdi
Sensor Fusion Good Thing Multimodal Approach Visual Hallucination Ambient Assisted Living Multimodal Hallucination Inertial Information

June 22, 2022

A Feature Memory Rearrangement Network for Visual Inspection of Textured Surface Defects Toward Edge Intelligent Manufacturing
Haiming Yao, Wenyong Yu, Xue Wang
Iterative Refinement Visual Inspection Multimodal Approach Smart Manufacturing Surface Defect

May 2, 2022

Music Interpretation Analysis. A Multimodal Approach To Score-Informed Resynthesis of Piano Recordings
Federico Simonetta
Audio Processing Multimodal Approach Piano Performance Music Recording Music Structure Analysis Music Performance

April 26, 2022

RadioPathomics: Multimodal Learning in Non-Small Cell Lung Cancer for Adaptive Radiotherapy
Matteo Tortora, Ermanno Cordelli, Rosa Sicilia, Lorenzo Nibid, Edy Ippolito, Giuseppe Perrone, Sara Ramella, Paolo Soda
Multimodal Data Multimodal Learning Radiomics Feature Lung Cancer Multimodal Approach Adaptive Radiotherapy Multimodal Paradigm

April 13, 2022

Do You Really Mean That? Content Driven Audio-Visual Deepfake Dataset and Multimodal Method for Temporal Forgery Localization
Zhixi Cai, Kalin Stefanov, Abhinav Dhall, Munawar Hayat
Deepfake Detection Multimodal Approach Forgery Localization

March 10, 2022

A multimodal approach for Parkinson disease analysis
Marcos Faundez-Zanuy, Antonio Satue-Villar, Jiri Mekyska, Viridiana Arreola, Pilar Sanz, Carles Paul, Luis Guirao, Mateu Serra, Laia Rofes, Pere Clavé, Enric Sesa-Nogueras, Josep Roure
Parkinson Disease Handwriting Recognition Multimodal Approach Parkinson'S Disease

February 12, 2022

Beyond Trading Data: The Hidden Influence of Public Awareness and Interest on Cryptocurrency Volatility
Zeyd Boukhers, Azeddine Bouabdallah, Cong Yang, Jan Jürjens
Diverse Ensemble Multimodal Approach Cryptocurrency Price Adaboost Algorithm Trading Data Digital Currency

December 17, 2021

A Multimodal Approach for Automatic Mania Assessment in Bipolar Disorder
Pınar Baki
Multimodal Approach Multimodal System Multimodal Decision

Multimodal Approach

Papers

Exploring Multimodal Approaches for Alzheimer's Disease Detection Using Patient Speech Transcript and Audio Data

A Survey on Multimodal Large Language Models

Beyond Chemical Language: A Multimodal Approach to Enhance Molecular Property Prediction

Context-aware attention layers coupled with optimal transport domain adaptation and multimodal fusion methods for recognizing dementia from spontaneous speech

A multimodal method based on cross-attention and convolution for postoperative infection diagnosis

Towards Zero-shot Relation Extraction in Web Mining: A Multimodal Approach with Relative XML Path

Continual Multimodal Knowledge Graph Construction

Global Flood Prediction: a Multimodal Machine Learning Approach

MATT: Multimodal Attention Level Estimation for e-learning Platforms

Ring That Bell: A Corpus and Method for Multimodal Metaphor Detection in Videos

A Multimodal Approach for Dementia Detection from Spontaneous Speech with Tensor Fusion Layer

When to Laugh and How Hard? A Multimodal Approach to Detecting Humor and its Intensity

Inertial Hallucinations -- When Wearable Inertial Devices Start Seeing Things

A Feature Memory Rearrangement Network for Visual Inspection of Textured Surface Defects Toward Edge Intelligent Manufacturing

Music Interpretation Analysis. A Multimodal Approach To Score-Informed Resynthesis of Piano Recordings

RadioPathomics: Multimodal Learning in Non-Small Cell Lung Cancer for Adaptive Radiotherapy

Do You Really Mean That? Content Driven Audio-Visual Deepfake Dataset and Multimodal Method for Temporal Forgery Localization

A multimodal approach for Parkinson disease analysis

Beyond Trading Data: The Hidden Influence of Public Awareness and Interest on Cryptocurrency Volatility

A Multimodal Approach for Automatic Mania Assessment in Bipolar Disorder