Multimodal Problem

Multimodal problems, involving the integration and analysis of data from multiple sources like text, images, and audio, are a central focus in current artificial intelligence research. Current efforts concentrate on developing robust model architectures, including transformer-based networks and neural architecture search techniques, to effectively fuse information from diverse modalities and improve performance on tasks like question answering, translation, and image retrieval. These advancements are crucial for creating more sophisticated AI systems capable of understanding complex real-world scenarios and have significant implications for applications in healthcare, robotics, and creative content generation.

Papers

October 8, 2024

Temporal Image Caption Retrieval Competition -- Description and Results
Jakub Pokrywka, Piotr Wierzchoń, Kornel Weryszko, Krzysztof Jassem
Text Modality Multimodal Model Key Result Description Library Image Text Retrieval Multimodal Problem Image Caption Retrieval

August 5, 2024

ExoViP: Step-by-step Verification and Exploration with Exoskeleton Modules for Compositional Visual Reasoning
Yuxuan Wang, Alan Yuille, Zhuowan Li, Zilong Zheng
Environment Exploration Verification Task Visual Task Multimodal Problem Visual Predictive Compositional Reasoning Task Compositional Visual Reasoning

July 9, 2024

In Search of Excellence: SHOA as a Competitive Shrike Optimization Algorithm for Multimodal Problems
Hanan K. AbdulKarim, Tarik A. Rashid
Search Query Swarm Intelligence Multimodal Problem Nature Inspired Algorithm Swarm Optimization Swarm Intelligence Algorithm

May 4, 2024

On the Information Redundancy in Non-Autoregressive Translation
Zhihao Wang, Longyue Wang, Jinsong Su, Junfeng Yao, Zhaopeng Tu
Human Annotation Information Redundancy Multimodal Problem Non Autoregressive Translation Token Repetition

April 29, 2024

Simplifying Multimodality: Unimodal Approach to Multimodal Challenges in Radiology with General-Domain Large Language Model
Seonhee Cho, Choonghan Kim, Jiho Lee, Chetan Chilkunda, Sujin Choi, Joo Heung Yoon
Domain Specific Large Multimodal Model Multimodal Data Unimodal Model Radiology Imaging Multimodal Problem Domain LLM

April 19, 2024

MM-PhyRLHF: Reinforcement Learning Framework for Multimodal Physics Question-Answering
Avinash Anand, Janak Kapuriya, Chhavi Kirtani, Apoorv Singh, Jay Saraf, Naman Lal, Jatin Kumar, Adarsh Raj Shivam, Astha Verma, Rajiv Ratn Shah, Roger Zimmermann
Human Feedback Human Like Multimodal Question Multimodal Problem Reinforcement Learning Framework LLM Based Chatbot

April 11, 2024

MM-PhyQA: Multimodal Physics Question-Answering With Multi-Image CoT Prompting
Avinash Anand, Janak Kapuriya, Apoorv Singh, Jay Saraf, Naman Lal, Astha Verma, Rushali Gupta, Rajiv Shah
Multimodal Input Visual Prompting Physical Reasoning Multimodal Problem

March 11, 2024

MAP-Elites with Transverse Assessment for Multimodal Problems in Creative Domains
Marvin Zammit, Antonios Liapis, Georgios N. Yannakakis
Multimodal Agent Co Orchestration Multimodal Problem Creative Domain Unlabeled 3D Image to Text Mapping

February 28, 2024

MMSR: Symbolic Regression is a Multi-Modal Information Fusion Task
Yanjie Li, Jingyi Liu, Weijun Li, Lina Yu, Min Wu, Wenqiang Li, Meilan Hao, Su Wei, Yusong Deng
Contrastive Loss Symbolic Regression Multi Modal Task Multimodal Problem Expression Tree Modal Fusion

February 21, 2024

OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems
Chaoqun He, Renjie Luo, Yuzhuo Bai, Shengding Hu, Zhen Leng Thai, Junhao Shen, Jinyi Hu, Xu Han, Yujie Huang, Yuxiang Zhang, Jie Liu, Lei Qi, Zhiyuan Liu, Maosong Sun
Large Multimodal Model Artificial General Intelligence Challenging Benchmark Multimodal Problem Mathematical Olympiad Scientific Benchmark Bilingual Multimodal

January 20, 2024

Automated Fusion of Multimodal Electronic Health Records for Better Medical Predictions
Suhan Cui, Jiaqi Wang, Yuan Zhong, Han Liu, Ting Wang, Fenglong Ma
Multimodal Problem Multimodal Electronic Health Record

July 16, 2023

Breaking Down the Task: A Unit-Grained Hybrid Training Framework for Vision and Language Decision Making
Ruipu Luo, Jiwen Zhang, Zhongyu Wei
Vision Language Vision Paper Related Task Unknown Language Multimodal Problem Multimodal Decision

March 12, 2023

Fuzzy Alignments in Directed Acyclic Graph for Non-Autoregressive Machine Translation
Zhengrui Ma, Chenze Shao, Shangtong Gui, Min Zhang, Yang Feng
Directed Acyclic Graph Multimodal Problem Modal Translation Non Autoregressive Translation Likelihood Loss Non Autoregressive Machine Translation Evaluating Alignment

March 10, 2023

Single-branch Network for Multimodal Training
Muhammad Saad Saeed, Shah Nawaz, Muhammad Haris Khan, Muhammad Zaigham Zaheer, Karthik Nandakumar, Muhammad Haroon Yousaf, Arif Mahmood
Cross Modal Retrieval Multimodal Task Multi Modal Training Multimodal Problem Face Voice Branch Network Multimodal Application

November 8, 2022

Tell Your Story: Task-Oriented Dialogs for Interactive Content Creation
Satwik Kottur, Seungwhan Moon, Aram H. Markosyan, Hardik Shah, Babak Damavandi, Alborz Geramifard
Content Generation Written Story Multimodal Problem Content Creation Coherent Montage

October 26, 2022

End-to-End Multimodal Representation Learning for Video Dialog
Huda Alamri, Anthony Bilic, Michael Hu, Apoorva Beedu, Irfan Essa
Transformer Based Language Model Visual Encoder Multimodal Representation Learning State of the Art Encoders Multimodal Problem Video Dialog Visual Dialog Task

April 28, 2022

A First Runtime Analysis of the NSGA-II on a Multimodal Problem
Benjamin Doerr, Zhongdi Qu
Genetic Algorithm Runtime Analysis Non Dominated Sorting Genetic Algorithm Multimodal Problem Mutation Operator Adaptive Mutation Tool Usage Evaluation Benchmark Global Simple Evolutionary Multi Objective

April 23, 2022

Training and challenging models for text-guided fashion image retrieval
Eric Dodds, Jack Culpepper, Gaurav Srivastava
Training Data Image Caption Fashion Image Retrieval Multimodal Problem

April 5, 2022

$\textit{latent}$-GLAT: Glancing at Latent Variables for Parallel Text Generation
Yu Bao, Hao Zhou, Shujian Huang, Dongqi Wang, Lihua Qian, Xinyu Dai, Jiajun Chen, Lei Li
Latent Variable Autoregressive Model Glance Annotation Multimodal Problem Discrete Latent Variable

March 29, 2022

Image Retrieval from Contextual Descriptions
Benno Krojer, Vaibhav Adlakha, Vibhav Vineet, Yash Goyal, Edoardo Ponti, Siva Reddy
Fine Grained Vision Language Context Information Image Retrieval Multimodal Problem

Multimodal Problem

Papers

Temporal Image Caption Retrieval Competition -- Description and Results

ExoViP: Step-by-step Verification and Exploration with Exoskeleton Modules for Compositional Visual Reasoning

In Search of Excellence: SHOA as a Competitive Shrike Optimization Algorithm for Multimodal Problems

On the Information Redundancy in Non-Autoregressive Translation

Simplifying Multimodality: Unimodal Approach to Multimodal Challenges in Radiology with General-Domain Large Language Model

MM-PhyRLHF: Reinforcement Learning Framework for Multimodal Physics Question-Answering

MM-PhyQA: Multimodal Physics Question-Answering With Multi-Image CoT Prompting

MAP-Elites with Transverse Assessment for Multimodal Problems in Creative Domains

MMSR: Symbolic Regression is a Multi-Modal Information Fusion Task

OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems

Automated Fusion of Multimodal Electronic Health Records for Better Medical Predictions

Breaking Down the Task: A Unit-Grained Hybrid Training Framework for Vision and Language Decision Making

Fuzzy Alignments in Directed Acyclic Graph for Non-Autoregressive Machine Translation

Single-branch Network for Multimodal Training

Tell Your Story: Task-Oriented Dialogs for Interactive Content Creation

End-to-End Multimodal Representation Learning for Video Dialog

A First Runtime Analysis of the NSGA-II on a Multimodal Problem

Training and challenging models for text-guided fashion image retrieval

$\textit{latent}$-GLAT: Glancing at Latent Variables for Parallel Text Generation

Image Retrieval from Contextual Descriptions