Encoding Scheme

Encoding schemes, methods for representing data in a format suitable for machine learning algorithms, are crucial for model performance and fairness. Current research focuses on optimizing encoding for various data types (text, tabular, images), exploring techniques like one-hot encoding, similarity-based encoding, and morphology-driven byte encoding, and evaluating their impact on model accuracy and bias mitigation across different architectures (transformers, linear models). These advancements are vital for improving the efficiency and fairness of machine learning applications, particularly in areas like natural language processing, multilingual modeling, and federated learning. The development of robust and efficient encoding methods is essential for advancing the field and ensuring responsible deployment of machine learning systems.

Papers

April 19, 2022

Probing for the Usage of Grammatical Number
Karim Lasri, Tiago Pimentel, Alessandro Lenci, Thierry Poibeau, Ryan Cotterell
Greater Public Use Numerical Data Linear Probing Data Encoding Encoding Scheme Linear Code Linguistic Property

March 30, 2022

Does Configuration Encoding Matter in Learning Software Performance? An Empirical Study on Encoding Schemes
Jingzhi Gong, Tao Chen
Empirical Study Encoding Scheme Performance Model Label Encoding Structure Encoding

February 25, 2022

Equilibrium Aggregation: Encoding Sets via Optimization
Sergey Bartunov, Fabian B. Fuchs, Timothy Lillicrap
Optimization Purpose Aggregation Method Encoding Scheme Aggregation Strategy Mean Aggregation Input Tensor

January 27, 2022

Fairness Implications of Encoding Protected Categorical Attributes
Carlos Mougan, Jose M. Alvarez, Salvatore Ruggieri, Steffen Staab
Encoding Scheme Categorical Feature Protected Attribute Fairness Implication Categorical Encoding

Encoding Scheme

Papers

Probing for the Usage of Grammatical Number

Does Configuration Encoding Matter in Learning Software Performance? An Empirical Study on Encoding Schemes

Equilibrium Aggregation: Encoding Sets via Optimization

Fairness Implications of Encoding Protected Categorical Attributes