Multimodal Sequence

Multimodal sequence analysis focuses on understanding and generating sequences of data encompassing diverse modalities like text, images, audio, and video. Current research emphasizes developing unified model architectures, often based on transformers, that can effectively process and integrate information from these disparate sources, addressing challenges like unaligned data and information redundancy through techniques such as mutual information maximization and disentanglement. This field is crucial for advancing artificial intelligence capabilities in areas like video understanding, sentiment analysis, and multimodal generation, leading to more robust and contextually aware AI systems.

Papers

December 12, 2024

V2PE: Improving Multimodal Long-Context Capability of Vision-Language Models with Variable Visual Position Encoding
Junqi Ge, Ziyi Chen, Jintao Lin, Jinguo Zhu, Xihui Liu, Jifeng Dai, Xizhou Zhu
Vision Language Model Full Model Multimodal Context Multimodal Sequence

September 27, 2024

Emu3: Next-Token Prediction is All You Need
Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo, Quan Sun, Yufeng Cui, Jinsheng Wang, Fan Zhang, Yueze Wang, Zhen Li, Qiying Yu, Yingli Zhao, Yulong Ao, Xuebin Min, Tao Li, Boya Wu, Bo Zhao, Bowen Zhang, Liangdong Wang, Guang Liu, Zheqi He, Xi Yang, Jingjing Liu, Yonghua Lin, Tiejun Huang, Zhongyuan Wang
Multimodal Task Next Token Prediction Multimodal AI Multimodal Sequence

September 19, 2024

Mutual Information-based Representations Disentanglement for Unaligned Multimodal Language Sequences
Fan Qian, Jiqing Han, Jianchen Li, Yongjun He, Tieran Zheng, Guibin Zheng
Long Term Cooperation Modality Specific Multimodal Joint Representation Disentanglement Modality Agnostic Multimodal Sequence

September 3, 2024

PixelBytes: Catching Unified Embedding for Multimodal Generation
Fabien Furfaro
Unified Alignment Pixel Wise Multimodal Generation Multimodal Representation Learning Bidirectional Generation Multimodal Sequence Pixel Embeddings

July 31, 2024

Learning Video Context as Interleaved Multimodal Sequences
Kevin Qinghong Lin, Pengchuan Zhang, Difei Gao, Xide Xia, Joya Chen, Ziteng Gao, Jinheng Xie, Xuhong Xiao, Mike Zheng Shou
Video Understanding Multimodal Language Model Video Context Multimodal Sequence Interleaved Multimodal

February 13, 2024

World Model on Million-Length Video And Language With Blockwise RingAttention
Hao Liu, Wilson Yan, Matei Zaharia, Pieter Abbeel
Vision Language Human Language World Model Long Video Context Transformer Long Video Understanding Multimodal Sequence Conversational Turn

May 24, 2023

Denoising Bottleneck with Mutual Information Maximization for Video Multimodal Fusion
Shaoxiang Wu, Damai Dai, Ziwei Qin, Tianyu Liu, Binghuai Lin, Yunbo Cao, Zhifang Sui
Fine Grained Multimodal Fusion Multimodal Sentiment Analysis Mutual Information Maximization Multimodal Signal Multimodal Sequence

May 2, 2023

Early Classifying Multimodal Sequences
Alexander Cao, Jean Utke, Diego Klabjan
Classification Code Unimodal Model Multimodal Classification Early Classification Multimodal Sequence AUC Optimization

June 16, 2022

Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment Analysis in Videos
Lianyang Ma, Yu Yao, Tao Liang, Tongliang Liu
Fine Grained Gameplay Video Multimodal Fusion Multimodal Transformer Multimodal Sentiment Analysis Multimodal Sequence

March 20, 2022

STEMM: Self-learning with Speech-text Manifold Mixup for Speech Translation
Qingkai Fang, Rong Ye, Lei Li, Yang Feng, Mingxuan Wang
Speech Representation Speech Translation Multimodal Sequence End Speech to Text Translation Speech Translation Benchmark Speech Text Manifold Mixup

December 3, 2021

LMR-CBT: Learning Modality-fused Representations with CB-Transformer for Multimodal Emotion Recognition from Unaligned Multimodal Sequences
Ziwang Fu, Feng Liu, Hanyang Wang, Siyuan Shen, Jiahao Zhang, Jiayin Qi, Xiangling Fu, Aimin Zhou
Transformer Based Multimodal Emotion Recognition Modal Feature Modality Invariant Cognitive Behavioral Therapy Multimodal Sequence