Partitioned Data

Partitioned data, where datasets are divided into subsets for training or analysis, is a crucial area of research addressing challenges in large-scale machine learning and data privacy. Current research focuses on developing efficient partitioning strategies, including novel clustering algorithms and optimized indexing structures, to improve model training speed, accuracy, and generalizability across diverse datasets and model architectures like LLMs and GNNs. These advancements are vital for handling the increasing volume and complexity of data in various fields, from IoT applications and graph embeddings to federated learning and biomedical image analysis, ultimately enhancing the reliability and scalability of machine learning systems.

18papers

Papers

March 11, 2025

Scaling Probabilistic Circuits via Data Partitioning
Jonas Seng, Florian Peter Busch, Pooja Prasad, Devendra Singh Dhami, Martin Mundt, Kristian Kersting
TU Darmstadt●hessian.AI●DFKI●Eindhoven University of Technology●University of Bremen
Large Scale Datasets Moral Tractability Partitioned Data Probabilistic Circuit Multiplicative Size Scaling

March 4, 2025

October 4, 2024

CommonIT: Commonality-Aware Instruction Tuning for Large Language Models via Data Partitions
Jun Rao, Xuebo Liu, Lian Lian, Shengjun Cheng, Yunjie Liao, Min Zhang
Partitioned Data Instruction Dataset Instruction Tuning Instruction Following

September 15, 2024

Leiden-Fusion Partitioning Method for Effective Distributed Training of Graph Embeddings
Yuhe Bai, Camelia Constantin, Hubert Naacke
Partitioned Data Graph Embeddings Large Network Node Classification Training Graph Community Detection

August 28, 2024

Efficient k-NN Search in IoT Data: Overlap Optimization in Tree-Based Indexing Structures
Ala-Eddine Benrazek, Zineddine Kouahla, Brahim Farou, Hamid Seridi, Ibtissem Kemouguette
Internet of Thing Data Data Space High Efficiency Overlap Detection Partitioned Data NN Search

June 25, 2024

Entity Augmentation for Efficient Classification of Vertically Partitioned Data with Limited Overlap
Avi Amalanshu, Viswesh Nagaswamy, G. V. S. S. Prudhvi, Yash Sirvi, Debashish Chakravarty
Efficient Classification Low Overlap Partitioned Data Entity Enhancement Vertical Federated Learning Entity Resolution Entity Alignment

May 20, 2024

Accelerating Relative Entropy Coding with Space Partitioning
Jiajun He, Gergely Flamich, José Miguel Hernández-Lobato
Lossless Compression Partitioned Data Entropy Coding Neural Compression Relative Entropy Lossy Compression

May 7, 2024

Enhancing Scalability of Metric Differential Privacy via Secret Dataset Partitioning and Benders Decomposition
Chenxi Qiu
Data Perturbation Bender Decomposition Partitioned Data Differential Privacy Potential Scalability

April 15, 2024

April 14, 2024

The Effect of Data Partitioning Strategy on Model Generalizability: A Case Study of Morphological Segmentation
Zoey Liu, Bonnie J. Dorr
Case Study Language Family Partitioned Data Mixed Effect Morphological Segmentation Model Evaluation Model Generalizability Linguistic Diversity

March 6, 2024

Decoupled Vertical Federated Learning for Practical Training on Vertically Partitioned Data
Avi Amalanshu, Yash Sirvi, David I. Inouye
Intermediate Representation Decentralized Aggregation Partitioned Data Training Environment Feature Learning Label Supervision Vertical Federated Learning

October 30, 2023

Privacy-Preserving Federated Learning over Vertically and Horizontally Partitioned Data for Financial Anomaly Detection
Swanand Ravindra Kadhe, Heiko Ludwig, Nathalie Baracaldo, Alan King, Yi Zhou, Keith Houck, Ambrish Rawat, Mark Purcell, Naoise Holohan+6
Inference Time Financial Fraud Detection Financial Risk Detection Differential Privacy Partitioned Data Homomorphic Encryption

July 17, 2023

CohortFinder: an open-source tool for data-driven partitioning of biomedical image cohorts to yield robust machine learning models
Fan Fan, Georgia Martinez, Thomas Desilvio, John Shin, Yijiang Chen, Bangchen Wang, Takaya Ozeki, Maxime W. Lafarge, Viktor H. Koelzer+4
Machine Learning Downstream Medical Medical Imaging Research Cohort Representation Open Source Partitioned Data

May 8, 2023

Scalable Optimal Margin Distribution Machine
Yilin Wang, Nan Cao, Teng Zhang, Xuanhua Shi, Hai Jin
Margin Based L SVRG Partitioned Data

March 15, 2023

Reevaluating Data Partitioning for Emotion Detection in EmoWOZ
Moeen Mostafavi, Michael D. Porter
Partitioned Data Emotion Label Emotion Recognition GLOBEM Dataset Target Emotion

August 30, 2022

Large-step neural network for learning the symplectic evolution from partitioned data
Xin Li, Jian Li, Zhihong Jeff Xia, Nikolaos Georgakarakos
Symplectic Group Hamiltonian System Orbital Motion Neural Network Partitioned Data

June 16, 2022

Partitioned Data

Papers

Scaling Probabilistic Circuits via Data Partitioning

Leveraging Randomness in Model and Data Partitioning for Privacy Amplification

Machine Learning-based Regional Cooling Demand Prediction with Optimised Dataset Partitioning

CommonIT: Commonality-Aware Instruction Tuning for Large Language Models via Data Partitions

Leiden-Fusion Partitioning Method for Effective Distributed Training of Graph Embeddings

Efficient k-NN Search in IoT Data: Overlap Optimization in Tree-Based Indexing Structures

Entity Augmentation for Efficient Classification of Vertically Partitioned Data with Limited Overlap

Accelerating Relative Entropy Coding with Space Partitioning

Enhancing Scalability of Metric Differential Privacy via Secret Dataset Partitioning and Benders Decomposition

Communication-Efficient Hybrid Federated Learning for E-health with Horizontal and Vertical Data Partitioning

VFLGAN: Vertical Federated Learning-based Generative Adversarial Network for Vertically Partitioned Data Publication

The Effect of Data Partitioning Strategy on Model Generalizability: A Case Study of Morphological Segmentation

Decoupled Vertical Federated Learning for Practical Training on Vertically Partitioned Data

Privacy-Preserving Federated Learning over Vertically and Horizontally Partitioned Data for Financial Anomaly Detection

CohortFinder: an open-source tool for data-driven partitioning of biomedical image cohorts to yield robust machine learning models

Scalable Optimal Margin Distribution Machine

Reevaluating Data Partitioning for Emotion Detection in EmoWOZ

Large-step neural network for learning the symplectic evolution from partitioned data

Compressed-VFL: Communication-Efficient Learning with Vertically Partitioned Data

Unsupervised Space Partitioning for Nearest Neighbor Search