Augmented Data

Augmented data techniques aim to improve the performance and robustness of machine learning models by artificially expanding training datasets. Current research focuses on developing sophisticated augmentation strategies, including generative models, contrastive learning, and adaptive augmentation methods, often integrated with various deep learning architectures like CNNs, transformers, and recurrent neural networks. These advancements address challenges such as data scarcity, class imbalance, and the need for improved model generalization across diverse conditions, impacting fields ranging from natural language processing and computer vision to robotics and autonomous driving. The ultimate goal is to create more accurate, reliable, and robust models with less reliance on extensive, expensive data collection.

Papers

February 6, 2024

CAMBranch: Contrastive Learning with Augmented MILPs for Branching
Jiacheng Lin, Meng Xu, Zhihua Xiong, Huangang Wang
Contrastive Learning Imitation Learning Augmented Data Learning System Strong Branching

December 15, 2023

Sample-Efficient Learning to Solve a Real-World Labyrinth Game Using Data-Augmented Model-Based Reinforcement Learning
Thomas Bi, Raffaello D'Andrea
Model Based Reinforcement Learning Sample Efficient Augmented Data

November 29, 2023

Mergen: The First Manchu-Korean Machine Translation Model Trained on Augmented Data
Jean Seo, Sungjoo Byun, Minha Kang, Sangah Lee
Chinese Character Augmented Data

November 19, 2023

Portuguese FAQ for Financial Services
Paulo Finardi, Wanderley M. Melo, Edgard D. Medeiros Neto, Alex F. Mansano, Pablo B. Costa, Vinicius F. Caridá
Natural Language Processing Yes No Question Semantic Similarity Data Augmentation Technique Augmented Data

November 8, 2023

RankAug: Augmented data ranking for text classification
Tiasa Singha Roy, Priyam Basu
Language Understanding Text Classification Augmented Data Text Similarity Data Filtering Syntactic Diversity

November 2, 2023

October 27, 2023

Guided Data Augmentation for Offline Reinforcement Learning and Imitation Learning
Nicholas E. Corrado, Yuxiao Qu, John U. Balis, Adam Labiosa, Josiah P. Hanna
Data Augmentation Imitation Learning Offline Reinforcement Learning Robot Policy Augmented Data

October 26, 2023

Understanding when Dynamics-Invariant Data Augmentations Benefit Model-Free Reinforcement Learning Updates
Nicholas E. Corrado, Josiah P. Hanna
Reinforcement Learning Data Augmentation Human Understanding Augmented Data

October 25, 2023

Using GPT-4 to Augment Unbalanced Data for Automatic Scoring
Luyang Fang, Gyeong-Geon Lee, Xiaoming Zhai
GPT 4 Generative Large Language Model Augmented Data Automatic Scoring Text Data Augmentation

September 16, 2023

PDFTriage: Question Answering over Long, Structured Documents
Jon Saad-Falcon, Joe Barrow, Alexa Siu, Ani Nenkova, David Seunghyun Yoon, Ryan A. Rossi, Franck Dernoncourt
Large Language Model Yes No Question Long Span Structured Document Augmented Data User Query PDF Document

September 7, 2023

SimpleNeRF: Regularizing Sparse Input Neural Radiance Fields with Simpler Solutions
Nagabhushan Somraj, Adithyan Karanayil, Rajiv Soundararajan
Neural Radiance Field Augmented Data Depth Supervision Simpler Solution

August 24, 2023

SCoRD: Subject-Conditional Relation Detection with Text-Augmented Data
Ziyan Yang, Kushal Kafle, Zhe Lin, Scott Cohen, Zhihong Ding, Vicente Ordonez
Augmented Data Sentence Level Relation Extraction Relation Recognition Object Prediction

April 8, 2023

SimbaML: Connecting Mechanistic Models and Machine Learning with Augmented Data
Maximilian Kleissl, Lukas Drews, Benedict B. Heyder, Julian Zabbarov, Pascal Iversen, Simon Witzke, Bernhard Y. Renard, Katharina Baum
Machine Learning Data Driven Differential Equation Physic Informed Machine Learning Augmented Data Mechanistic Model

March 20, 2023

EPiC: Ensemble of Partial Point Clouds for Robust Classification
Meir Yossef Levi, Guy Gilboa
Point Cloud Diverse Ensemble Point Cloud Classification Augmented Data Robust Classification 3D Sensor Partial Point Cloud Converting Epic

March 15, 2023

Reinforce Data, Multiply Impact: Improved Model Accuracy and Robustness with Dataset Reinforcement
Fartash Faghri, Hadi Pouransari, Sachin Mehta, Mehrdad Farajtabar, Ali Farhadi, Mohammad Rastegari, Oncel Tuzel
Native Robustness Model Performance ImageNet Dataset Augmented Data Reset Free

February 22, 2023

What Are Effective Labels for Augmented Data? Improving Calibration and Robustness with AutoLabel
Yao Qin, Xuezhi Wang, Balaji Lakshminarayanan, Ed H. Chi, Alex Beutel
Native Robustness Data Augmentation Calibration Performance Data Augmentation Method Data Augmentation Technique Augmented Data

December 20, 2022

On-the-fly Denoising for Data Augmentation in Natural Language Understanding
Tianqing Fang, Wenxuan Zhou, Fangyu Liu, Hongming Zhang, Yangqiu Song, Muhao Chen
Data Augmentation Language Understanding Noisy Data Augmentation Technique Augmented Data Color Image Denoising

October 24, 2022

ADLight: A Universal Approach of Traffic Signal Control with Augmented Data Using Reinforcement Learning
Maonan Wang, Yutong Xu, Xi Xiong, Yuheng Kan, Chengcheng Xu, Man-On Pun
Reinforcement Learning Intersection Scenario Dynamic Network Traffic Signal Control Augmented Data

October 11, 2022

T5 for Hate Speech, Augmented Data and Ensemble
Tosin Adewumi, Sana Sabah Sabry, Nosheen Abid, Foteini Liwicki, Marcus Liwicki
State of the Art Hate Speech Diverse Ensemble Hate Speech Detection Augmented Data Bi LSTM Annotation Error T5 Model