the latest in aiBeta

Dataset Watermarking

Dataset watermarking aims to protect the intellectual property of datasets used to train machine learning models by embedding imperceptible watermarks that allow for the detection of unauthorized usage. Current research focuses on developing robust watermarking techniques for various data types (images, tabular data, point clouds, text) using methods like clean-label backdoor watermarks, statistical hypothesis testing, and data perturbation, often within a black-box setting where only model outputs are accessible. This field is crucial for safeguarding valuable datasets, particularly in commercially sensitive areas like healthcare and generative AI, and ensuring fair attribution and preventing model theft.

13papers

Papers

May 5, 2025

Towards Dataset Copyright Evasion Attack against Personalized Text-to-Image Diffusion Models
Kuofeng Gao, Yufei Zhu, Yiming Li, Jiawang Bai, Yong Yang, Zhifeng Li, Shu-Tao Xia
Tsinghua University●Peng Cheng Laboratory●Shenzhen University●Nanyang Technological University●Tencent
Text to Image Diffusion Model Copyright Trap Imperceptible Watermark Dataset Watermarking Personalized Subject

March 30, 2025

MiZero: The Shadowy Defender Against Text Style Infringements
Ziwei Zhang, Juan Wen, Wanli Peng, Zhengxian Wu, Yinghan Zhou, Yiming Xue
China Agricultural University
Dataset Watermarking Watermarking Method Bit Watermarking

March 6, 2025

Robust Data Watermarking in Language Models by Injecting Fictitious Knowledge
Xinyue Cui, Johnny Tian-Zheng Wei, Swabha Swayamdipta, Robin Jia
University of Southern California
Dataset Watermarking Language Model Training Data Privacy Knowledge Based

February 15, 2025

Dataset Protection via Watermarked Canaries in Retrieval-Augmented LLMs
Yepeng Liu, Xuandong Zhao, Dawn Song, Yuheng Bu
Large Language Model Retrieval Augmented Generation Dataset Watermarking Text Datasets

January 9, 2025

RAG-WM: An Efficient Black-Box Watermarking Approach for Retrieval-Augmented Generation of Large Language Models
Peizhuo Lv, Mengjie Sun, Hao Wang, Xiaofeng Wang, Shengzhi Zhang, Yuxuan Chen, Kai Chen, Limin Sun
Black Box Watermarking Dataset Watermarking Poisoning Attack Retrieval Augmented Generation Watermarking Method

November 19, 2024

CDI: Copyrighted Data Identification in Diffusion Models
Jan Dubiński, Antoni Kowalczuk, Franziska Boenisch, Adam Dziedzic
Diverse Datasets Dataset Watermarking Data Owner Inference Attack Diffusion Model

September 27, 2024

Detecting Dataset Abuse in Fine-Tuning Stable Diffusion Models for Text-to-Image Synthesis
Songrui Wang, Yubo Zhu, Wei Tong, Sheng Zhong
Text to Image Synthesis Stable Diffusion Model Dataset Watermarking Harmful Data Large Scale Datasets

August 10, 2024

PointNCBW: Towards Dataset Ownership Verification for Point Clouds via Negative Clean-label Backdoor Watermark
Cheng Wei, Yang Wang, Kuofeng Gao, Shuo Shao, Yiming Li, Zhibo Wang, Zhan Qin
Dataset Watermarking Point Cloud Dataset Ownership Verification Backdoor Watermark

June 21, 2024

TabularMark: Watermarking Tabular Datasets for Machine Learning
Yihao Zheng, Haocheng Xia, Junyuan Pang, Jinfei Liu, Kui Ren, Lingyang Chu, Yang Cao, Li Xiong
Watermarking Method Tabular Datasets Tabular Domain Watermarking Scheme Agnostic Watermarking Machine Learning Dataset Watermarking

May 22, 2024

Watermarking Generative Tabular Data
Hengzhi He, Peiyu Yu, Junpeng Ren, Ying Nian Wu, Guang Cheng
Dataset Watermarking Agnostic Watermarking

March 26, 2024

DataCook: Crafting Anti-Adversarial Examples for Healthcare Data Copyright Protection
Sihan Shang, Jiancheng Yang, Zhenglong Sun, Pascal Fua
Adversarial Example Dataset Watermarking Healthcare Data

February 16, 2024

Proving membership in LLM pretraining data via data watermarks
Johnny Tian-Zheng Wei, Ryan Yixiang Wang, Robin Jia
Dataset Watermarking Medical LLM Raw Data

October 9, 2023

Domain Watermark: Effective and Harmless Dataset Copyright Protection is Closed at Hand
Junfeng Guo, Yiming Li, Lixu Wang, Shu-Tao Xia, Heng Huang, Cong Liu, Bo Li
Dataset Ownership Verification Human Hand Ownership Verification Dataset Watermarking Domain Sample

June 22, 2023

Set-Membership Inference Attacks using Data Watermarking
Mike Laszkiewicz, Denis Lukovnikov, Johannes Lederer, Asja Fischer
Generative Model Watermarking Method Membership Inference Attack Deep Watermarking Dataset Watermarking

March 20, 2023

Did You Train on My Dataset? Towards Public Dataset Protection with Clean-Label Backdoor Watermarking
Ruixiang Tang, Qizhang Feng, Ninghao Liu, Fan Yang, Xia Hu
Dataset Watermarking Backdoor Watermark Data Set

September 27, 2022

Untargeted Backdoor Watermark: Towards Harmless and Stealthy Dataset Copyright Protection
Yiming Li, Yang Bai, Yong Jiang, Yong Yang, Shu-Tao Xia, Bo Li
Backdoor Watermark Dataset Ownership Verification Dataset Watermarking

August 4, 2022

Black-box Dataset Ownership Verification via Backdoor Watermarking
Yiming Li, Mingyan Zhu, Xue Yang, Yong Jiang, Tao Wei, Shu-Tao Xia
Dataset Watermarking Dataset Ownership Verification Backdoor Watermark Backdoor Poisoning Attack Deep Neural Network

February 25, 2022

On the Effectiveness of Dataset Watermarking in Adversarial Settings
Buse Gul Atli Tekgul, N. Asokan
Model Watermarking Dataset Watermarking Model Extraction Attack Adversarial Setting

December 29, 2021

Invertible Image Dataset Protection
Kejiang Chen, Xianhan Zeng, Qichao Ying, Sheng Li, Zhenxing Qian, Xinpeng Zhang
Dataset Watermarking Adversarial Example Deep Learning Adversarial Image Bistable Image Adversarial DEfense