Hidden Knowledge

Hidden knowledge research explores the latent information and capabilities embedded within complex systems, particularly machine learning models, aiming to understand, extract, and mitigate their implications. Current research focuses on detecting hidden biases and vulnerabilities in models like LLMs and neural networks, employing techniques such as steganalysis, quiver representation theory, and contrastive learning to analyze hidden activations and emergent behaviors. This work is crucial for enhancing model safety, improving interpretability, and addressing concerns about fairness and security in various applications, from medical diagnosis to autonomous systems.

Papers

August 14, 2024

Nonlocal Attention Operator: Materializing Hidden Knowledge Towards Interpretable Physics Discovery
Yue Yu, Ning Liu, Fei Lu, Tian Gao, Siavash Jafarzadeh, Stewart Silling
Attention Mechanism Neural Operator Scientific Discovery Hidden Knowledge Neural Network Baseline Non Local Attention

August 12, 2024

Neural Networks as Spin Models: From Glass to Hidden Order Through Training
Richard Barney, Michael Winer, Victor Galitski
Neural Network Training Data Hidden Knowledge Spin Glass Oxide GLASS Spin Model Statistical Mechanical

July 24, 2024

Hidden or Inferred: Fair Learning-To-Rank with Unknown Demographics
Oluseun Olulana, Kathleen Cachel, Fabricio Murai, Elke Rundensteiner
Hidden Knowledge Fair Learning to Rank

June 27, 2024

Emergence of Hidden Capabilities: Exploring Learning Dynamics in Concept Space
Core Francisco Park, Maya Okawa, Andrew Lee, Hidenori Tanaka, Ekdeep Singh Lubana
Generative Model Path Breaking Emergence Learning Dynamic Concept Learning Hidden Knowledge Conceptual Space

May 29, 2024

Stress-Testing Capability Elicitation With Password-Locked Models
Ryan Greenblatt, Fabien Roger, Dmitrii Krasheninnikov, David Krueger
Large Language Model Hidden Knowledge Eliciting Code Capability

May 24, 2024

Exploring the Evolution of Hidden Activations with Live-Update Visualization
Xianglin Yang, Jin Song Dong
Catastrophic Forgetting Continual Learning Specie Evolution Learning Dynamic Hidden Knowledge Visualization Tool

May 21, 2024

Exploring Dark Knowledge under Various Teacher Capacities and Addressing Capacity Mismatch
Xin-Chun Li, Wen-Shu Fan, Bowen Tao, Le Gan, De-Chuan Zhan
Knowledge Distillation Ground Truth Hidden Knowledge

May 6, 2024

DBDH: A Dual-Branch Dual-Head Neural Network for Invisible Embedded Regions Localization
Chengxin Zhao, Hefei Ling, Sijing Xie, Nan Sun, Zongyi Li, Yuxuan Shi, Jiazhong Chen
Hidden Knowledge Dual Branch Segmentation Head Region Identification

April 7, 2024

Hidden You Malicious Goal Into Benign Narratives: Jailbreak Large Language Models through Logic Chain Injection
Zhilong Wang, Yebo Cao, Peng Liu
Large Language Model Jailbreak Attack Hidden Knowledge Malicious User Malicious Content Logic Chain Injection

April 1, 2024

Exploring LLM Multi-Agents for ICD Coding
Rumeng Li, Xun Wang, Hong Yu
Hidden Knowledge ICD Code

March 14, 2024

The First to Know: How Token Distributions Reveal Hidden Knowledge in Large Vision-Language Models?
Qinyu Zhao, Ming Xu, Kartik Gupta, Akshay Asthana, Liang Zheng, Stephen Gould
Large Vision Language Model Response Generation Hidden Knowledge Token Prediction First Attempt

February 8, 2024

Hidden in Plain Sight: Undetectable Adversarial Bias Attacks on Vulnerable Patient Populations
Pranav Kulkarni, Andrew Chan, Nithya Navarathna, Skylar Chan, Paul H. Yi, Vishwa S. Parekh
Hidden Knowledge Plain Sight Prediction Bias Vulnerable Population Bias Neuron Adversarial Bias

December 6, 2023

Hidden yet quantifiable: A lower bound for confounding strength using randomized trials
Piersilvio De Bartolomeis, Javier Abad, Konstantin Donhauser, Fanny Yang
Synthetic Data Causal Effect Estimated Team Strength Hidden Knowledge Personalized Medicine Observational Study Generalizing Clinical Trial

November 23, 2023

Invisible Relevance Bias: Text-Image Retrieval Models Prefer AI-Generated Images
Shicheng Xu, Danyang Hou, Liang Pang, Jingcheng Deng, Jun Xu, Huawei Shen, Xueqi Cheng
Generated Content AI Generated Image Image Text Retrieval Hidden Knowledge Neural Retrieval

November 22, 2023

EA-KD: Entropy-based Adaptive Knowledge Distillation
Chi-Ping Su, Ching-Hsun Tseng, Bin Pu, Lei Zhao, Zhuangzhuang Chen, Shin-Jye Lee
Knowledge Distillation Knowledge Transfer Knowledge Based Hidden Knowledge

November 21, 2023

Mechanistically analyzing the effects of fine-tuning on procedurally defined tasks
Samyak Jain, Robert Kirk, Ekdeep Singh Lubana, Robert P. Dick, Hidenori Tanaka, Edward Grefenstette, Tim Rocktäschel, David Scott Krueger
Fine Tuning Mixed Effect New Task Large Pre Trained Model Hidden Knowledge Model Capability

October 10, 2023

Automated clinical coding using off-the-shelf large language models
Joseph S. Boyle, Antanas Kascenas, Pat Lok, Maria Liakata, Alison Q. O'Neil
Large Language Model Hidden Knowledge BiOmedical Ontology Medical Coding ICD Code

September 27, 2023

Identifiability Matters: Revealing the Hidden Recoverable Condition in Unbiased Learning to Rank
Mouxiang Chen, Chenghao Liu, Zemin Liu, Zhuo Li, Jianling Sun
Stable Rank Ranking Model Hidden Knowledge Unbiased Learning Partial Identifiability Relevance Prediction Unbiased Learning to Rank

August 13, 2023

Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden Rewards
Ilgin Dogan, Zuo-Jun Max Shen, Anil Aswani
Data Driven Multi Armed Bandit Estimation Task Hidden Knowledge Institutional Incentive Principal Agent Informed Agent Adaptive Incentive

July 27, 2023

Regularized Mask Tuning: Uncovering Hidden Knowledge in Pre-trained Vision-Language Models
Kecheng Zheng, Wei Wu, Ruili Feng, Kai Zhu, Jiawei Liu, Deli Zhao, Zheng-Jun Zha, Wei Chen, Yujun Shen
Fine Tuning Pre Trained Vision Language Model Parameter Efficient Tuning Hidden Knowledge Binary Mask Dropout Regularization

Hidden Knowledge

Papers

Nonlocal Attention Operator: Materializing Hidden Knowledge Towards Interpretable Physics Discovery

Neural Networks as Spin Models: From Glass to Hidden Order Through Training

Hidden or Inferred: Fair Learning-To-Rank with Unknown Demographics

Emergence of Hidden Capabilities: Exploring Learning Dynamics in Concept Space

Stress-Testing Capability Elicitation With Password-Locked Models

Exploring the Evolution of Hidden Activations with Live-Update Visualization

Exploring Dark Knowledge under Various Teacher Capacities and Addressing Capacity Mismatch

DBDH: A Dual-Branch Dual-Head Neural Network for Invisible Embedded Regions Localization

Hidden You Malicious Goal Into Benign Narratives: Jailbreak Large Language Models through Logic Chain Injection

Exploring LLM Multi-Agents for ICD Coding

The First to Know: How Token Distributions Reveal Hidden Knowledge in Large Vision-Language Models?

Hidden in Plain Sight: Undetectable Adversarial Bias Attacks on Vulnerable Patient Populations

Hidden yet quantifiable: A lower bound for confounding strength using randomized trials

Invisible Relevance Bias: Text-Image Retrieval Models Prefer AI-Generated Images

EA-KD: Entropy-based Adaptive Knowledge Distillation

Mechanistically analyzing the effects of fine-tuning on procedurally defined tasks

Automated clinical coding using off-the-shelf large language models

Identifiability Matters: Revealing the Hidden Recoverable Condition in Unbiased Learning to Rank

Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden Rewards

Regularized Mask Tuning: Uncovering Hidden Knowledge in Pre-trained Vision-Language Models