Machine Generated Text

Machine-generated text detection aims to distinguish computer-generated text from human-written text, addressing concerns about misinformation and authenticity. Current research focuses on developing robust, model-agnostic detectors that can identify text generated by various large language models (LLMs), often employing techniques like zero-shot learning, ensemble methods, and contrastive learning with transformer-based architectures. This field is crucial for maintaining the integrity of information sources across diverse domains, from news and social media to education and scientific publishing, and ongoing efforts are improving the accuracy and generalizability of detection methods.

Papers

February 19, 2024

Machine-Generated Text Localization
Zhongping Zhang, Wenda Qin, Bryan A. Plummer
Machine Generated Machine Generated Text Text Localization

February 18, 2024

Stumbling Blocks: Stress Testing the Robustness of Machine-Generated Text Detectors Under Attacks
Yichen Wang, Shangbin Feng, Abe Bohan Hou, Xiao Pu, Chao Shen, Xiaoming Liu, Yulia Tsvetkov, Tianxing He
Large Language Model Native Robustness New Attack Machine Generated Machine Generated Text Movable Obstacle Continuous Chronic Stress

February 17, 2024

February 1, 2024

Does DetectGPT Fully Utilize Perturbation? Bridge Selective Perturbation to Fine-tuned Contrastive Learning Detector would be Better
Shengchao Liu, Xiaoming Liu, Yichen Wang, Zehua Cheng, Chengzhengxu Li, Zhaohan Zhang, Yu Lan, Chao Shen
Large Language Model Contrastive Learning Machine Generated Text Real World Perturbation

January 22, 2024

Fine-tuning Large Language Models for Multigenerator, Multidomain, and Multilingual Machine-Generated Text Detection
Feng Xiong, Thanet Markchom, Ziwei Zheng, Subin Jung, Varun Ojha, Huizhi Liang
Text Classification SemEval 2022 Task Multi Domain Generated Text Synchronous Generator Machine Generated Text

January 15, 2024

Authorship Obfuscation in Multilingual Machine-Generated Text Detection
Dominik Macko, Robert Moro, Adaku Uchendu, Ivan Srba, Jason Samuel Lucas, Michiharu Yamashita, Nafis Irtiza Tripto, Dongwon Lee, Jakub Simko, Maria Bielikova
Machine Generated Machine Generated Text Text Generation Capability Multilingual Detection Authorship Obfuscation Homoglyph Attack

December 20, 2023

Assaying on the Robustness of Zero-Shot Machine-Generated Text Detectors
Yi-Fan Zhang, Zhang Zhang, Liang Wang, Tieniu Tan, Rong Jin
Native Robustness Language Generation AI Generated Text Machine Generated Text Advanced Large Language Model

November 26, 2023

Machine-Generated Text Detection using Deep Learning
Raghav Gaggar, Ashish Bhagchandani, Harsh Oza
Deep Learning Detection Method Machine Generated Text Twitter Sentiment

November 21, 2023

IMGTB: A Framework for Machine-Generated Text Detection Benchmarking
Michal Spiegel, Dominik Macko
Large Language Model New Framework Text Detection Machine Generated Machine Generated Text

October 20, 2023

MULTITuDE: Large-Scale Multilingual Machine-Generated Text Detection Benchmark
Dominik Macko, Robert Moro, Adaku Uchendu, Jason Samuel Lucas, Michiharu Yamashita, Matúš Pikuliak, Ivan Srba, Thai Le, Dongwon Lee, Jakub Simko, Maria Bielikova
Text Detection Machine Generated Generated Text Multilingual LLM Machine Generated Text Unseen Language

October 9, 2023

GPT-who: An Information Density-based Machine-Generated Text Detector
Saranya Venkatraman, Adaku Uchendu, Dongwon Lee
Full Information GPT Neo Machine Generated Text Human Written Text Domain Adaptive Detection Information Density Statistical Signature

October 8, 2023

On the Zero-Shot Generalization of Machine-Generated Text Detectors
Xiao Pu, Jingyu Zhang, Xiaochuang Han, Yulia Tsvetkov, Tianxing He
Large Language Model Zero Shot Training Data Machine Generated Generated Text Machine Generated Text

May 26, 2023

Distinguishing Human Generated Text From ChatGPT Generated Text Using Machine Learning
Niful Islam, Debopom Sutradhar, Humaira Noor, Jarin Tasnim Raya, Monowara Tabassum Maisha, Dewan Md Farid
Language Model Machine Learning ChatGPT Generated Conversation Generative Pre Trained Transformer Machine Generated Text ChatGPT Generated Conversational Artificial Intelligence

May 24, 2023

M4: Multi-generator, Multi-domain, and Multi-lingual Black-Box Machine-Generated Text Detection
Yuxia Wang, Jonibek Mansurov, Petar Ivanov, Jinyan Su, Artem Shelmanov, Akim Tsvigun, Chenxi Whitehouse, Osama Mohammed Afzal, Tarek Mahmoud, Toru Sasaki, Thomas Arnold, Alham Fikri Aji, Nizar Habash, Iryna Gurevych, Preslav Nakov
Large Language Model Multilingual Model Multi Domain Text Detection Machine Generated Generated Text Machine Generated Text Multi Layer Generator

May 22, 2023

G3Detector: General GPT-Generated Text Detector
Haolan Zhan, Xuanli He, Qiongkai Xu, Yuxiang Wu, Pontus Stenetorp
Machine Generated Text

May 17, 2023

Smaller Language Models are Better Black-box Machine-Generated Text Detectors
Niloofar Mireshghallah, Justus Mattern, Sicun Gao, Reza Shokri, Taylor Berg-Kirkpatrick
Generative Language Model Machine Generated Smaller Language Model Machine Generated Text Human Written Text

March 26, 2023

MGTBench: Benchmarking Machine-Generated Text Detection
Xinlei He, Xinyue Shen, Zeyuan Chen, Michael Backes, Yang Zhang
Large Language Model Source Attribution Generated Text Machine Generated Text

January 26, 2023

DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature
Eric Mitchell, Yoonho Lee, Alexander Khazatsky, Christopher D. Manning, Chelsea Finn
Large Language Model Detection Model LLM Generated Gaussian Curvature Machine Generated Text