the latest in aiBeta

Vision Task

Vision tasks, encompassing image and video analysis for diverse applications, are a central focus in computer vision research. Current efforts concentrate on improving model efficiency and robustness, particularly through multi-task learning, the development of novel architectures like Vision Transformers and state-space models, and the incorporation of human feedback for improved alignment with user preferences. These advancements are driving progress in areas such as image compression for machine learning pipelines, multi-image understanding, and the creation of more robust and fair models for real-world deployment.

171papers

Papers - Page 9

December 15, 2022

Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners
Zitian Chen, Yikang Shen, Mingyu Ding, Zhenfang Chen, Hengshuang Zhao, Erik Learned-Miller, Chuang Gan
Multi Task Learning Mixture Component Expert Knowledge Self Attention Single Task Learning Vision Task Cognitive Taskonomy

December 5, 2022

Images Speak in Images: A Generalist Painter for In-Context Visual Learning
Xinlong Wang, Wen Wang, Yue Cao, Chunhua Shen, Tiejun Huang
Creative Painting Vision Task Context Learning Visual Understanding Image Speak Task Specific Model Visual in Context Learning

November 30, 2022

AIO-P: Expanding Neural Performance Predictors Beyond Image Classification
Keith G. Mills, Di Niu, Mohammad Salameh, Weichen Qiu, Fred X. Han, Puyuan Liu, Jialin Zhang, Wei Lu, Shangling Jui
Neural Architecture Vision Task Neural Predictor Performance Prediction Neural Network Design Image Classification

November 21, 2022

Understanding and Improving Visual Prompting: A Label-Mapping Perspective
Aochuan Chen, Yuguang Yao, Pin-Yu Chen, Yihua Zhang, Sijia Liu
Human Understanding Visual Prompting Label Mapping Vision Task

November 16, 2022

LightDepth: A Resource Efficient Depth Estimation Approach for Dealing with Ground Truth Sparsity via Curriculum Learning
Fatemeh Karimi, Amir Mehrpanah, Reza Rawassizadeh
Autonomous System Curriculum Learning Vision Task Depth Estimation Ground Truth

November 4, 2022

Understanding and Mitigating Overfitting in Prompt Tuning for Vision-Language Models
Chengcheng Ma, Yang Liu, Jiankang Deng, Lingxi Xie, Weiming Dong, Changsheng Xu
Model Overfitting Context Optimization Vision Language Human Understanding Open Vocabulary Object Detection Vision Language Model Style PROMPT Vision Task

October 28, 2022

Grafting Vision Transformers
Jongwoo Park, Kumara Kahatapitiya, Donghyun Kim, Shivchander Sudalairaj, Quanfu Fan, Michael S. Ryoo
Vision Task Convolutional Neural Network ImageNet 1k Swin Transformer Vision Transformer

October 18, 2022

Sequence and Circle: Exploring the Relationship Between Patches
Zhengyang Yu, Jochen Triesch
Green CIRCLe Sequence Relationship Sequence of Sequence Vision Task Class Relevant Patch Image Patch Vision Transformer Human Relationship

October 14, 2022

Budget-Aware Pruning for Multi-Domain Learning
Samuel Felipe dos Santos, Rodrigo Berriel, Thiago Oliveira-Santos, Nicu Sebe, Jurandy Almeida
Multi Domain Learning Deep Model Vision Task Deep Learning

October 13, 2022

ImaginaryNet: Learning Object Detectors without Real Images and Annotations
Minheng Ni, Zitong Huang, Kailai Feng, Wangmeng Zuo
Object Detector Real Image Vision Task Annotated Chapter Information

October 6, 2022

Ambiguous Images With Human Judgments for Robust Visual Event Classification
Kate Sanders, Reno Kriz, Anqi Liu, Benjamin Van Durme
Vision Model Human Judgment Vision Benchmark Event Classification Vision Task Real World Noisy Datasets

October 3, 2022

September 26, 2022

Diversified Dynamic Routing for Vision Tasks
Botos Csaba, Adel Bibi, Yanwei Li, Philip Torr, Ser-Nam Lim
Dynamic Routing Vision Task Semantic Segmentation Instance Segmentation Deep Learning Model UNsupervised Approach

September 23, 2022

Do Current Multi-Task Optimization Methods in Deep Learning Even Help?
Derrick Xin, Behrooz Ghorbani, Ankush Garg, Orhan Firat, Justin Gilmer
Deep Learning Multi Task Optimization Multi Task Vision Task Task Loss

September 7, 2022

Auto-TransRL: Autonomous Composition of Vision Pipelines for Robotic Perception
Aditya Kapoor, Nijil George, Vartika Sengar, Vighnesh Vatsal, Jayavardhana Gubbi
Vision Task Vision Pipeline Deep Reinforcement Learning Transformer Architecture Robot Perception Algorithmic Composition

August 25, 2022

A Compacted Structure for Cross-domain learning on Monocular Depth and Flow Estimation
Yu Chen, Xu Cao, Xiaoyi Lin, Baoru Huang, Xiao-Yun Zhou, Jian-Qing Zheng, Guang-Zhong Yang
Vision Task Optical Flow Flow Estimation Depth Map Porous Beam Monocular Depth Cross Domain

August 3, 2022

GPPF: A General Perception Pre-training Framework via Sparsely Activated Multi-Task Learning
Benyuan Sun, Jin Dai, Zihao Liang, Congying Liu, Yi Yang, Bo Bai
Pre Training Task New Framework Multi Task Training Vision Task State of the Art Multi Task Learning Task Oriented

July 28, 2022

Pro-tuning: Unified Prompt Tuning for Vision Tasks
Xing Nie, Bolin Ni, Jianlong Chang, Gaomeng Meng, Chunlei Huo, Zhaoxiang Zhang, Shiming Xiang, Qi Tian, Chunhong Pan
Vision Task Pre Trained Prompt Tuning

July 25, 2022

Deep Laparoscopic Stereo Matching with Transformers
Xuelian Cheng, Yiran Zhong, Mehrtash Harandi, Tom Drummond, Zhiyong Wang, Zongyuan Ge
Transformer Based Stereo Matching Vision Task Deep Stereo Matching Transformer Megatron Decepticons