Text Clustering

Text clustering aims to automatically group similar text documents based on their content, facilitating efficient organization and analysis of large datasets where manual labeling is impractical. Current research emphasizes leveraging large language models (LLMs) for improved embedding generation and cluster interpretation, exploring both unsupervised and supervised approaches, and incorporating techniques like contrastive learning and attention mechanisms to enhance performance. These advancements are improving the accuracy and efficiency of text clustering, with applications ranging from data augmentation in legal contexts to improved information retrieval and resource recommendation in digital libraries.

Papers

May 4, 2023

Influence of various text embeddings on clustering performance in NLP
Rohan Saha
System Performance NLP Field External Influence Text Embeddings Text Clustering Different Embeddings Different Word Embeddings

April 20, 2023

CEIL: A General Classification-Enhanced Iterative Learning Framework for Text Clustering
Mingjun Zhao, Mengzhen Wang, Yinglong Ma, Di Niu, Haijiang Wu
Deep Clustering Communication Efficient Iterative Training Text Clustering Contrastive Clustering Short Text Clustering

March 25, 2023

Shapley-based Explainable AI for Clustering Applications in Fault Diagnosis and Prognosis
Joseph Cohen, Xun Huan, Jun Ni
Explainable AI Smart Manufacturing Shapley Additive Explanation Prognosis Prediction Text Clustering Explainable Clustering

February 16, 2023

A Hybrid Chimp Optimization Algorithm and Generalized Normal Distribution Algorithm with Opposition-Based Learning Strategy for Solving Data Clustering Problems
Sayed Pedram Haeri Boroujeni, Elnaz Pashaei
Data Clustering Clustering Algorithm Text Clustering Opponent Modeling State of the Art Clustering Hybrid Optimization Cluster Center Clustering Problem

January 3, 2023

ClusTop: An unsupervised and integrated text clustering and topic extraction framework
Zhongtao Chen, Chenghu Mi, Siwei Duo, Jingfei He, Yatong Zhou
Topic Detection Text Clustering

December 19, 2022

Very Large Language Model as a Unified Methodology of Text Mining
Meng Jiang
Large Language Model Unified Framework Text Mining Text Clustering

October 31, 2022

Automated Code Extraction from Discussion Board Text Dataset
Sina Mahdipour Saravani, Sadaf Ghaffari, Yanye Luther, James Folkestad, Marcia Moraes
Source Code Latent Dirichlet Allocation Text Mining Text Datasets Text Clustering Latent Semantic Analysis

August 2, 2022

No Pattern, No Recognition: a Survey about Reproducibility and Distortion Issues of Text Clustering and Topic Modeling
Marília Costa Rosendo Silva, Felipe Alves Siqueira, João Pedro Mantovani Tarrega, João Vitor Pataca Beinotti, Augusto Sousa Nunes, Miguel de Mattos Gardini, Vinícius Adolfo Pereira da Silva, Nádia Félix Felipe da Silva, André Carlos Ponce de Leon Ferreira de Carvalho
Unsupervised Learning Topic Modeling Research Reproducibility Complex Pattern Distortion Aware Unsupervised Model Text Clustering Document Categorization

August 1, 2022

Multi-Document Summarization with Centroid-Based Pretraining
Ratish Puduppully, Parag Jain, Nancy F. Chen, Mark Steedman
Structured Summary Multi Document Summarization Text Clustering Centroid Encoder

January 8, 2022

Clustering Text Using Attention
Lovedeep Singh
Natural Language Processing Attention Mechanism Human Attention Text Clustering Conventional Clustering

December 16, 2021

Proposition-Level Clustering for Multi-Document Summarization
Ori Ernst, Avi Caciularu, Ori Shapira, Ramakanth Pasunuru, Mohit Bansal, Jacob Goldberger, Ido Dagan
Multi Document Summarization Text Clustering Summarization Method Text Fusion Proposition Segmentation

December 15, 2021

Text Mining Through Label Induction Grouping Algorithm Based Method
Gulshan Saleem, Nisar Ahmed, Usman Qamar
Information Retrieval Text Mining Text Clustering Cluster Label Latent Semantic Analysis

November 5, 2021

Investigation of Topic Modelling Methods for Understanding the Reports of the Mining Projects in Queensland
Yasuko Okamoto, Thirunavukarasu Balasubramaniam, Richi Nayak
Comprehensive Investigation Latent Dirichlet Allocation Mining Complex Text Clustering Bethesda Report Topic Modelling