Paraphrase Dataset

Paraphrase datasets are collections of sentence pairs expressing the same meaning in different words, crucial for training and evaluating natural language processing (NLP) models. Current research focuses on creating larger, higher-quality datasets with improved lexical and syntactic diversity, often leveraging large language models (LLMs) and techniques like back-translation to overcome limitations of existing resources. These improved datasets are vital for advancing NLP tasks such as paraphrase generation, detection, and semantic search, ultimately leading to more robust and accurate applications in various fields.

Papers

December 20, 2024

Template-Driven LLM-Paraphrased Framework for Tabular Math Word Problem Generation
Xiaoqiang Kang, Zimu Wang, Xiaobo Jin, Wei Wang, Kaizhu Huang, Qiufeng Wang
New Framework Faithful Generation Automatic Generation Math Word Problem Single Sample Paraphrase Dataset

November 7, 2024

VTechAGP: An Academic-to-General-Audience Text Paraphrase Dataset and Benchmark Models
Ming Cheng, Jiaying Gong, Chenhan Yuan, William A. Ingram, Edward Fox, Hoda Eldardiry
Large Language Model Model Benchmark Paraphrase Dataset Prompt Based NLP

September 18, 2024

PARAPHRASUS : A Comprehensive Benchmark for Evaluating Paraphrase Detection Models
Andrianos Michail, Simon Clematide, Juri Opitz
Comprehensive Benchmark Effective Paraphrasing Paraphrase Detection High Quality Paraphrase Paraphrase Dataset

August 19, 2024

The Brittleness of AI-Generated Image Watermarking Techniques: Examining Their Robustness Against Visual Paraphrasing Attacks
Niyar R Barman, Krish Sharma, Ashhar Aziz, Shashwat Bajpai, Shwetangshu Biswas, Vasu Sharma, Vinija Jain, Aman Chadha, Amit Sheth, Amitava Das
Native Robustness Paraphrase Generation Visual Text Brittle Fracture Deep Watermarking Paraphrase Dataset Paraphrasing Attack

April 18, 2024

ParaFusion: A Large-Scale LLM-Driven English Paraphrase Dataset Infused with High-Quality Lexical and Syntactic Diversity
Lasal Jayawardena, Prasan Yapa
Natural Language Processing Paraphrase Generation English Dataset Paraphrase Dataset Paraphrase Evaluation Syntactic Diversity

May 26, 2023

ParaAMR: A Large-Scale Syntactically Diverse Paraphrase Dataset by AMR Back-Translation
Kuan-Hao Huang, Varun Iyer, I-Hung Hsu, Anoop Kumar, Kai-Wei Chang, Aram Galstyan
Paraphrase Generation Paraphrase Dataset Paraphrase Corpus

October 24, 2022

Modeling Information Change in Science Communication with Semantically Matched Paraphrases
Dustin Wright, Jiaxin Pei, David Jurgens, Isabelle Augenstein
Evidence Retrieval Effective Paraphrasing Paraphrase Detection Scientific Communication Paraphrase Dataset Graph Enhancement

October 11, 2022

BanglaParaphrase: A High-Quality Bangla Paraphrase Dataset
Ajwad Akil, Najrin Sultana, Abhik Bhattacharjee, Rifat Shahriyar
Bangla Text Bangla Natural Language Paraphrase Dataset

October 6, 2022

Improving Large-scale Paraphrase Acquisition and Generation
Yao Dou, Chao Jiang, Wei Xu
Faithful Generation Paraphrase Generation High Quality Paraphrase Paraphrase Dataset

March 25, 2022

Striking a Balance: Alleviating Inconsistency in Pre-trained Models for Symmetric Classification Tasks
Ashutosh Kumar, Aditya Joshi
Pre Trained Model Balancing Strategy Consistency Loss Hard to Easy Inconsistency Downstream Classification Paraphrase Dataset

January 17, 2022

PerPaDa: A Persian Paraphrase Dataset based on Implicit Crowdsourcing Data Collection
Salar Mohtaj, Fatemeh Tavakkoli, Habibollah Asghari
Effective Paraphrasing Plagiarism Detection Paraphrase Detection Crowd Sourced Data Paraphrase Dataset

December 9, 2021

Semantic Search as Extractive Paraphrase Span Detection
Jenna Kanerva, Hanna Kitti, Li-Hsin Chang, Teemu Vahtola, Mathias Creutz, Filip Ginter
Semantic Search Paraphrase Detection Paraphrase Dataset Paraphrase Pair Paraphrase Corpus

November 13, 2021

Extracting and filtering paraphrases by bridging natural language inference and paraphrasing
Matej Klemen, Marko Robnik-Šikonja
Natural Language Inference Effective Paraphrasing High Quality Paraphrase Paraphrase Dataset

Paraphrase Dataset

Papers

Template-Driven LLM-Paraphrased Framework for Tabular Math Word Problem Generation

VTechAGP: An Academic-to-General-Audience Text Paraphrase Dataset and Benchmark Models

PARAPHRASUS : A Comprehensive Benchmark for Evaluating Paraphrase Detection Models

The Brittleness of AI-Generated Image Watermarking Techniques: Examining Their Robustness Against Visual Paraphrasing Attacks

ParaFusion: A Large-Scale LLM-Driven English Paraphrase Dataset Infused with High-Quality Lexical and Syntactic Diversity

ParaAMR: A Large-Scale Syntactically Diverse Paraphrase Dataset by AMR Back-Translation

Modeling Information Change in Science Communication with Semantically Matched Paraphrases

BanglaParaphrase: A High-Quality Bangla Paraphrase Dataset

Improving Large-scale Paraphrase Acquisition and Generation

Striking a Balance: Alleviating Inconsistency in Pre-trained Models for Symmetric Classification Tasks

PerPaDa: A Persian Paraphrase Dataset based on Implicit Crowdsourcing Data Collection

Semantic Search as Extractive Paraphrase Span Detection

Extracting and filtering paraphrases by bridging natural language inference and paraphrasing