Paraphrase Corpus

Paraphrase corpora, collections of textually similar sentences, are crucial resources for advancing natural language processing (NLP). Current research focuses on developing robust methods for creating and utilizing these corpora, including leveraging readily available resources like image captions and Wikipedia revision histories, and employing techniques like back-translation to augment existing datasets. These efforts aim to improve the quality and diversity of paraphrase data, leading to more accurate and effective NLP models for tasks such as sentence simplification, semantic search, and data augmentation for low-resource languages. The availability of high-quality paraphrase corpora is essential for training and evaluating NLP systems that understand and generate nuanced language variations.

Papers

December 4, 2024

Robust Multi-bit Text Watermark with LLM-based Paraphrasers
Xiaojun Xu, Jinghan Jia, Yuanshun Yao, Yang Liu, Hang Li
Text Watermarking Paraphrasing Attack Paraphrase Corpus Monotonic Paraphrasing

October 23, 2023

Characterizing how 'distributional' NLP corpora distance metrics are
Samuel Ackerman, George Kour, Eitan Farchi
NLP Metric Paraphrase Corpus Distributional Inequality Metric Corpus Similarity Measure Metric Distribution

May 31, 2023

Sentence Simplification Using Paraphrase Corpus for Initialization
Kang Liu, Jipeng Qiang
Parallel Corpus New Initialization Sentence Simplification Paraphrase Corpus

May 26, 2023

ParaAMR: A Large-Scale Syntactically Diverse Paraphrase Dataset by AMR Back-Translation
Kuan-Hao Huang, Varun Iyer, I-Hung Hsu, Anoop Kumar, Kai-Wei Chang, Aram Galstyan
Paraphrase Generation Paraphrase Dataset Paraphrase Corpus

January 26, 2023

Paraphrase Acquisition from Image Captions
Marcel Gohsen, Matthias Hagen, Martin Potthast, Benno Stein
Image Caption Paraphrase Detection High Quality Paraphrase Annotation Study Paraphrase Pair Paraphrase Corpus

February 25, 2022

Mining Naturally-occurring Corrections and Paraphrases from Wikipedia's Revision History
Aurélien Max, Guillaume Wisniewski
Language Correction Wikipedia Article High Quality Paraphrase Linguistic Phenomenon Supervised Correction Revision History Paraphrase Corpus Wikipedia Editor

December 9, 2021

Semantic Search as Extractive Paraphrase Span Detection
Jenna Kanerva, Hanna Kitti, Li-Hsin Chang, Teemu Vahtola, Mathias Creutz, Filip Ginter
Semantic Search Paraphrase Detection Paraphrase Dataset Paraphrase Pair Paraphrase Corpus