Large Datasets

Large datasets are driving advancements in machine learning, with research focusing on efficiently managing, processing, and extracting insights from massive amounts of data. Current efforts concentrate on developing scalable algorithms and model architectures, such as those based on Gaussian processes, optimal transport, and hierarchical representations, to handle the computational and storage challenges posed by these datasets. This research is crucial for improving the accuracy and generalizability of machine learning models across diverse applications, from recommendation systems and natural language processing to medical image analysis and earth observation. Furthermore, methods for data valuation, pruning, and distillation are being explored to enhance data quality and efficiency.

Papers

January 25, 2024

Investigating the Quality of DermaMNIST and Fitzpatrick17k Dermatological Image Datasets
Kumar Abhishek, Aditi Jain, Ghassan Hamarneh
Quality Issue Data Quality Large Datasets Data Quality Issue Dermatological Disease Datasets

January 19, 2024

ZnTrack -- Data as Code
Fabian Zills, Moritz Schäfer, Samuel Tovey, Johannes Kästner, Christian Holm
Raw Data Real World Code Computation Method Large Datasets Version Control

November 29, 2023

A Probabilistic Method to Predict Classifier Accuracy on Larger Datasets given Small Pilot Data
Ethan Harvey, Wansu Chen, David M. Kent, Michael C. Hughes
Gaussian Process Classification Performance Pilot Study Large Datasets Probabilistic Approach Trend Extrapolation Learning Classifier

November 25, 2023

Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets
Andreas Blattmann, Tim Dockhorn, Sumith Kulal, Daniel Mendelevitch, Maciej Kilian, Dominik Lorenz, Yam Levi, Zion English, Vikram Voleti, Adam Letts, Varun Jampani, Robin Rombach
Latent Diffusion Model Video Diffusion Model Text to Video Large Datasets Video Generative

November 12, 2023

A GPU-Accelerated Moving-Horizon Algorithm for Training Deep Classification Trees on Large Datasets
Jiayang Ren, Valentín Osuna-Enciso, Morimasa Okamoto, Qiangqiang Mao, Chaojie Ji, Liang Cao, Kaixun Hua, Yankai Cao
Decision Tree Differential Evolution Large Datasets Classification Tree Tree Structure Horizon Estimation

October 9, 2023

Efficient Hybrid Oversampling and Intelligent Undersampling for Imbalanced Big Data Classification
Carla Vairetti, José Luis Assadi, Sebastián Maldonado
Imbalanced Classification Large Datasets Oversampling Method Prediction Bias SMOTE Integrated Resampling Strategy

September 27, 2023

From LAION-5B to LAION-EO: Filtering Billions of Images Using Anchor Datasets for Satellite Image Extraction
Mikolaj Czerkawski, Alistair Francis
Satellite Image Satellite Imagery Large Datasets Image Corpus

September 25, 2023

Accelerating Machine Learning Algorithms with Adaptive Sampling
Mo Tiwari
Machine Learning Algorithm Learning Algorithm Adaptive Sampling Computational Efficiency Large Datasets Code Efficiency

May 31, 2023

Auto-Differentiation of Relational Computations for Very Large Scale Machine Learning
Yuxin Tang, Zhimin Ding, Dimitrije Jankov, Binhang Yuan, Daniel Bourgeois, Chris Jermaine
Large Datasets Auto Differentiation Large Scale Machine Learning Relational Algebra

May 11, 2023

Spectral Clustering on Large Datasets: When Does it Work? Theory from Continuous Clustering and Density Cheeger-Buser
Timothy Chu, Gary Miller, Noel Walkington
Theoretical Understanding Spectral Clustering Clustering Algorithm Large Datasets Spectral Filtering Class Density

May 8, 2023

What Do Patients Say About Their Disease Symptoms? Deep Multilabel Text Classification With Human-in-the-Loop Curation for Automatic Labeling of Patient Self Reports of Problems
Lakshmi Arbatti, Abhishek Hosamath, Vikram Ramanarayanan, Ira Shoulson
Human Annotation Multi Label Text Classification Large Datasets Automatic Curation Clinical Narrative Physical Symptom Automatic Labeling Self Report

March 11, 2023

Learning interpretable causal networks from very large datasets, application to 400,000 medical records of breast cancer patients
Marcel da Câmara Ribeiro-Dantas, Honghao Li, Vincent Cabeli, Louise Dupuis, Franck Simon, Liza Hettal, Anne-Sophie Hamy, Hervé Isambert
LeArning Abstract Causal Discovery Clinical Note Breast Cancer Causal Relation Latent Causal Large Datasets Causal Network Interpretable Causal

March 9, 2023

StyleDiff: Attribute Comparison Between Unlabeled Datasets in Latent Disentangled Space
Keisuke Kawano, Takuro Kutsuna, Ryoko Tokuhisa, Akihiro Nakamura, Yasushi Esaki
Generative Model Latent Space Large Datasets Comparative Review Scene Datasets

November 15, 2022

The Lean Data Scientist: Recent Advances towards Overcoming the Data Bottleneck
Chen Shani, Jonathan Zarecki, Dafna Shahaf
Machine Learning Deep Network Recent Advance Task Specific Data Science Large Datasets Annotation Strategy Data Bottleneck

November 2, 2022

DEArt: Dataset of European Art
Artem Reshetnikov, Maria-Cristina Marinescu, Joaquim More Lopez
Data Set Large Datasets Pose Annotation Classification Datasets Art Analysis

October 14, 2022

Spatiotemporal Classification with limited labels using Constrained Clustering for large datasets
Praveen Ravirathinam, Rahul Ghosh, Ke Wang, Keyang Xuan, Ankush Khandelwal, Hilary Dugan, Paul Hanson, Vipin Kumar
Representation Learning Spatiotemporal Representation Large Datasets Spatio Temporal Learning Temporal Representation Limited Label Constrained Clustering Separable Representation Spatiotemporal Clustering

September 29, 2022

Stop Wasting My Time! Saving Days of ImageNet and BERT Training with Latest Weight Averaging
Jean Kaddour
Language Model Supervised ImageNet Time Matter Faster Convergence Large Datasets Model Checkpoint WEight AVERaging BERT Variant Multiple Day

August 30, 2022

Compound Figure Separation of Biomedical Images: Mining Large Datasets for Self-supervised Learning
Tianyuan Yao, Chang Qu, Jun Long, Quan Liu, Ruining Deng, Yuanhan Tian, Jiachen Xu, Aadarsh Jha, Zuhayr Asad, Shunxing Bao, Mengyang Zhao, Agnes B. Fogo, Bennett A. Landman, Haichun Yang, Catie Chang, Yuankai Huo
Self Supervised Learning Large Scale Mining Complex Large Datasets Biomedical Image Compound Figure Separation

August 29, 2022

Learned k-NN Distance Estimation
Daichi Amagata, Yusuke Arai, Sumio Fujita, Takahiro Hara
Nearest Neighbor Large Datasets K$ Distance

August 25, 2022

Training a T5 Using Lab-sized Resources
Manuel R. Ciosici, Leon Derczynski
Large Language Model Language Model Human Language Large Datasets T5 Model

Large Datasets

Papers

Investigating the Quality of DermaMNIST and Fitzpatrick17k Dermatological Image Datasets

ZnTrack -- Data as Code

A Probabilistic Method to Predict Classifier Accuracy on Larger Datasets given Small Pilot Data

Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets

A GPU-Accelerated Moving-Horizon Algorithm for Training Deep Classification Trees on Large Datasets

Efficient Hybrid Oversampling and Intelligent Undersampling for Imbalanced Big Data Classification

From LAION-5B to LAION-EO: Filtering Billions of Images Using Anchor Datasets for Satellite Image Extraction

Accelerating Machine Learning Algorithms with Adaptive Sampling

Auto-Differentiation of Relational Computations for Very Large Scale Machine Learning

Spectral Clustering on Large Datasets: When Does it Work? Theory from Continuous Clustering and Density Cheeger-Buser

What Do Patients Say About Their Disease Symptoms? Deep Multilabel Text Classification With Human-in-the-Loop Curation for Automatic Labeling of Patient Self Reports of Problems

Learning interpretable causal networks from very large datasets, application to 400,000 medical records of breast cancer patients

StyleDiff: Attribute Comparison Between Unlabeled Datasets in Latent Disentangled Space

The Lean Data Scientist: Recent Advances towards Overcoming the Data Bottleneck

DEArt: Dataset of European Art

Spatiotemporal Classification with limited labels using Constrained Clustering for large datasets

Stop Wasting My Time! Saving Days of ImageNet and BERT Training with Latest Weight Averaging

Compound Figure Separation of Biomedical Images: Mining Large Datasets for Self-supervised Learning

Learned k-NN Distance Estimation

Training a T5 Using Lab-sized Resources