Tetromino Pixel

"Tetromino Pixel," a term encompassing various research directions, broadly focuses on leveraging pixel-level information from images and videos to achieve higher-level tasks. Current research emphasizes using deep learning models, including transformers, U-Nets, and diffusion models, to process visual data and integrate it with other modalities like text and 3D point clouds for applications such as image captioning, object detection, 3D reconstruction, and robotic control. This work is significant for advancing multimodal AI, improving the efficiency and interpretability of computer vision systems, and enabling new capabilities in areas like autonomous navigation and medical image analysis.

Papers

May 10, 2024

SSA-Seg: Semantic and Spatial Adaptive Pixel-level Classifier for Semantic Segmentation
Xiaowen Ma, Zhenliang Ni, Xinghao Chen
Semantic Segmentation Segmentation Performance Tetromino Pixel Semantic Description Fine Grained Recognition Pixel Classification

April 22, 2024

April 20, 2024

Pixel is a Barrier: Diffusion Models Are More Adversarially Robust Than We Think
Haotian Xue, Yongxin Chen
Diffusion Model Adversarial Attack Adversarial Example Adversarial Perturbation Adversarial Sample Tetromino Pixel Knowledge Barrier Adversarial Pattern

April 9, 2024

InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD
Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Bin Wang, Linke Ouyang, Songyang Zhang, Haodong Duan, Wenwei Zhang, Yining Li, Hang Yan, Yang Gao, Zhe Chen, Xinyue Zhang, Wei Li, Jingwen Li, Wenhai Wang, Kai Chen, Conghui He, Xingcheng Zhang, Jifeng Dai, Yu Qiao, Dahua Lin, Jiaqi Wang
Large Vision Language Model Tetromino Pixel Fine Grained Visual Ultra High Resolution Training Resolution

April 1, 2024

March 22, 2024

Pixel-GS: Density Control with Pixel-aware Gradient for 3D Gaussian Splatting
Zheng Zhang, Wenbo Hu, Yixing Lao, Tong He, Hengshuang Zhao
Point Cloud Gaussian Splatting View Synthesis Tetromino Pixel Multivariate Gaussian Per Pixel Reflection Gradient Density Control

March 21, 2024

Estimating Physical Information Consistency of Channel Data Augmentation for Remote Sensing Images
Tom Burgert, Begüm Demir
Data Augmentation Remote Sensing Image Tetromino Pixel Channel Data Augmentation

March 18, 2024

From Pixels to Insights: A Survey on Automatic Chart Understanding in the Era of Large Foundation Models
Kung-Hsiang Huang, Hou Pong Chan, Yi R. Fung, Haoyi Qiu, Mingyang Zhou, Shafiq Joty, Shih-Fu Chang, Heng Ji
Timely Survey Foundation Model DCU Insight AQ Tetromino Pixel Chart Comprehension Chart Component Chart Generation

March 17, 2024

From Pixels to Predictions: Spectrogram and Vision Transformer for Better Time Series Forecasting
Zhen Zeng, Rachneet Kaur, Suchetha Siddagangappa, Tucker Balch, Manuela Veloso
Vision Transformer Human Prediction Time Series Forecasting Visual Representation Multimodal Learning Tetromino Pixel Time Frequency Spectrogram Based

March 11, 2024

From Pixel to Cancer: Cellular Automata in Computed Tomography
Yuxiang Lai, Xiaoxi Chen, Angtian Wang, Alan Yuille, Zongwei Zhou
Computed Tomography Tetromino Pixel Cellular Automaton Cancer Diagnosis Synthetic Tumor Tumor Synthesis

February 21, 2024

Exploring the Limits of Semantic Image Compression at Micro-bits per Pixel
Jordan Dotzel, Bahaa Kotb, James Dotzel, Mohamed Abdelfattah, Zhiru Zhang
Image Compression Continuum Limit Tetromino Pixel Joint Photographic Expert Group Semantic Compression Micro Level Image Semantic

January 30, 2024

Pixel to Elevation: Learning to Predict Elevation Maps at Long Range using Images for Autonomous Offroad Navigation
Chanyoung Chung, Georgios Georgakis, Patrick Spieler, Curtis Padgett, Ali Agha, Shehryar Khattak
Tetromino Pixel Long Range Road Navigation Autonomous Off Road Driving Terrain Topology Elevation Data

January 18, 2024

Explaining the Implicit Neural Canvas: Connecting Pixels to Neurons by Tracing their Contributions
Namitha Padmanabhan, Matthew Gwilliam, Pulkit Kumar, Shishira R Maiya, Max Ehrlich, Abhinav Shrivastava
Meaningful Representation Tetromino Pixel Single Neuron Level Client Contribution Continuous Representation Implicit Neural Rendering

January 10, 2024

From Pampas to Pixels: Fine-Tuning Diffusion Models for Ga\'ucho Heritage
Marcellus Amadeus, William Alberto Cruz Castañeda, André Felipe Zanella, Felipe Rodrigues Perche Mahlow
Diffusion Model Generative Model Generative AI Latent Diffusion Model Text to Image Tetromino Pixel Local Culture Cultural Heritage

January 8, 2024

Identifying Important Group of Pixels using Interactions
Kosuke Sumiyasu, Kazuhiko Kawamoto, Hiroshi Kera
Tetromino Pixel Interaction Strategy Group Setting Pixel Wise Image Classifier Model Prediction Model Confidence

January 4, 2024

What You See is What You GAN: Rendering Every Pixel for High-Fidelity Geometry in 3D GANs
Alex Trevithick, Matthew Chan, Towaki Takikawa, Umar Iqbal, Shalini De Mello, Manmohan Chandraker, Ravi Ramamoorthi, Koki Nagano
Generative Adversarial Network GAN Model Neural Rendering Tetromino Pixel High Fidelity Geometry 3d Gan Neural Volume Rendering

January 3, 2024

From Pixel to Slide image: Polarization Modality-based Pathological Diagnosis Using Representation Learning
Jia Dong, Yao Yao, Yang Dong, Hui Ma
Representation Learning Tetromino Pixel Feature Representation Political Polarization Thyroid Cancer Multimodal Diagnosis

December 31, 2023

From Text to Pixels: A Context-Aware Semantic Synergy Solution for Infrared and Visible Image Fusion
Xingyuan Li, Yang Zou, Jinyuan Liu, Zhiying Jiang, Long Ma, Xin Fan, Risheng Liu
Data Detection Text Modality Image Fusion Tetromino Pixel Detection Task Richer RGB Infrared Feature Visible Image Fusion

Tetromino Pixel

Papers

SSA-Seg: Semantic and Spatial Adaptive Pixel-level Classifier for Semantic Segmentation

AutoAD III: The Prequel -- Back to the Pixels

Pixels and Predictions: Potential of GPT-4V in Meteorological Imagery Analysis and Forecast Communication

Pixel is a Barrier: Diffusion Models Are More Adversarially Robust Than We Think

InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD

Entity-Centric Reinforcement Learning for Object Manipulation from Pixels

From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models

Pixel-GS: Density Control with Pixel-aware Gradient for 3D Gaussian Splatting

Estimating Physical Information Consistency of Channel Data Augmentation for Remote Sensing Images

From Pixels to Insights: A Survey on Automatic Chart Understanding in the Era of Large Foundation Models

From Pixels to Predictions: Spectrogram and Vision Transformer for Better Time Series Forecasting

From Pixel to Cancer: Cellular Automata in Computed Tomography

Exploring the Limits of Semantic Image Compression at Micro-bits per Pixel

Pixel to Elevation: Learning to Predict Elevation Maps at Long Range using Images for Autonomous Offroad Navigation

Explaining the Implicit Neural Canvas: Connecting Pixels to Neurons by Tracing their Contributions

From Pampas to Pixels: Fine-Tuning Diffusion Models for Ga\'ucho Heritage

Identifying Important Group of Pixels using Interactions

What You See is What You GAN: Rendering Every Pixel for High-Fidelity Geometry in 3D GANs

From Pixel to Slide image: Polarization Modality-based Pathological Diagnosis Using Representation Learning

From Text to Pixels: A Context-Aware Semantic Synergy Solution for Infrared and Visible Image Fusion