Recognition Task

Visual recognition tasks, aiming to enable computers to "see" and understand images, are a central focus in computer vision research. Current efforts concentrate on improving model robustness to various challenges like occlusions, noise, and data imbalance, often leveraging architectures such as Vision Transformers (ViTs) and Convolutional Neural Networks (CNNs), and employing techniques like contrastive learning, mixup augmentation, and parameter-efficient fine-tuning. These advancements are crucial for enhancing the reliability and efficiency of applications ranging from autonomous driving and medical image analysis to more specialized tasks like ancient text recognition and art classification.

Papers

February 19, 2024

LangXAI: Integrating Large Vision Models for Generating Textual Explanations to Enhance Explainability in Visual Perception Tasks
Truong Thanh Hung Nguyen, Tobias Clement, Phuc Truong Loc Nguyen, Nils Kemmerzell, Van Binh Truong, Vo Thanh Khang Nguyen, Mohamed Abdelaal, Hung Cao
High Explainability Explainable Artificial Intelligence Recognition Task Explanation Generation Large Vision Model Textual Explanation

February 17, 2024

On Good Practices for Task-Specific Distillation of Large Pretrained Visual Models
Juliette Marrie, Michael Arbel, Julien Mairal, Diane Larlus
Knowledge Distillation Vision Model Task Specific Recognition Task Best Practice Easy to Hard Generalization Task Distillation

February 13, 2024

Improving Image Coding for Machines through Optimizing Encoder via Auxiliary Loss
Kei Iino, Shunsuke Akamatsu, Hiroshi Watanabe, Shohei Enomoto, Akira Sakamoto, Takeharu Eda
New Machine Recognition Task Region of Interest Auxiliary Loss Compressed Model Image Coding

December 29, 2023

Multiscale Vision Transformers meet Bipartite Matching for efficient single-stage Action Localization
Ioanna Ntinou, Enrique Sanchez, Georgios Tzimiropoulos
Vision Transformer Recognition Task Action Localization Vision Transformer Model Multiscale Vision Transformer

October 15, 2023

New Benchmarks for Asian Facial Recognition Tasks: Face Classification with Large Foundation Models
Jinwoo Seo, Soora Choi, Eungyeom Ha, Beomjune Kim, Dongbin Na
New Benchmark Classification Code Foundation Model Recognition Task Facial Feature

October 9, 2023

Hierarchical Side-Tuning for Vision Transformers
Weifeng Lin, Ziheng Wu, Wentao Yang, Mingxin Huang, Jun Huang, Lianwen Jin
Vision Transformer Fine Tuning Vision Task Pre Trained Vision Transformer Recognition Task Parameter Efficient Transfer Learning Side Tuning

September 8, 2023

Leveraging Model Fusion for Improved License Plate Recognition
Rayson Laroca, Luiz A. Zanlorensi, Valter Estevam, Rodrigo Minetto, David Menotti
Deep Learning Recognition Task License Plate Multiple Model Recognition Model Model Fusion

August 28, 2023

Causality-Based Feature Importance Quantifying Methods: PN-FI, PS-FI and PNS-FI
Shuxian Du, Yaxiu Sun, Changyi Du
Feature Selection Feature Importance Recognition Task

August 22, 2023

GOPro: Generate and Optimize Prompts in CLIP using Self-Supervised Learning
Mainak Singha, Ankit Jha, Biplab Banerjee
Self Supervised Learning Contrastive Loss Single CLIP Recognition Task Generate Quick Automatic Prompt Optimization

August 7, 2023

Learning Concise and Descriptive Attributes for Visual Recognition
An Yan, Yu Wang, Yiwu Zhong, Chengyu Dong, Zexue He, Yujie Lu, William Wang, Jingbo Shang, Julian McAuley
Vision Language Model Visual Recognition Recognition Task Concept Learning Interpretable Image Recognition

August 1, 2023

PVG: Progressive Vision Graph for Vision Recognition
Jiafu Wu, Jian Li, Jiangning Zhang, Boshen Zhang, Mingmin Chi, Yabiao Wang, Chengjie Wang
Image Recognition Recognition Task Graph Feature GNN Based Service Vision Transformer Backbone Vision Graph

July 28, 2023

July 10, 2023

Unsupervised Domain Adaptation with Deep Neural-Network
Artem Bituitskii
Deep Learning Domain Adaptation Unsupervised Domain Adaptation Multi Domain Recognition Task

June 26, 2023

Multitask Learning for Multiple Recognition Tasks: A Framework for Lower-limb Exoskeleton Robot Applications
Joonhyun Kim, Seongmin Ha, Dongbin Shin, Seoyeon Ham, Jaepil Jang, Wansoo Kim
New Framework Multitask Learning Recognition Task Lower Limb Exoskeleton Gait Phase Multitask Learning Framework

June 5, 2023

DeltaNN: Assessing the Impact of Computational Environment Parameters on the Performance of Image Recognition Models
Nikolaos Louloudakis, Perry Gibson, José Cano, Ajitha Rajan
Deep Learning Global Impact System Performance Deep Learning Framework Hardware Accelerator Recognition Task Recognition Model

May 30, 2023

Wrapped Cauchy Distributed Angular Softmax for Long-Tailed Visual Recognition
Boran Han
Softmax Function Recognition Task

April 28, 2023

Synergy of Machine and Deep Learning Models for Multi-Painter Recognition
Vassilis Lyberatos, Paraskevi-Antonia Theofilou, Jason Liartis, Georgios Siolas
Deep Learning Model New Machine Recognition Task Model Synergy New Large Scale Dataset

April 27, 2023

Vision Conformer: Incorporating Convolutions into Vision Transformer Layers
Brian Kenji Iwana, Akihiro Kusuda
Convolutional Neural Network Vision Transformer Direct Convolution Convolutional Layer Recognition Task Transformer Layer One Pas Multiple Conformer

April 13, 2023

SpectFormer: Frequency and Attention is what you need in a Vision Transformer
Badri N. Patro, Vinay P. Namboodiri, Vijay Srinivas Agneeswaran
Vision Transformer Human Attention High Frequency Multi Head Self Attention Recognition Task Multi Head Attention Transformer Representation