Long Text Data

Processing long text data is a significant challenge in natural language processing, with current research focusing on improving the efficiency and accuracy of large language models (LLMs) on such data. This involves developing techniques to reduce input length while preserving essential information, employing novel architectures like recurrent attention networks and modified transformer models (e.g., BigBird, Longformer) to handle longer sequences, and adapting existing models through fine-tuning and data augmentation strategies. These advancements are crucial for various applications, including question answering, automated speech recognition, and clinical note summarization, where handling extensive textual data is essential for effective analysis and information extraction.

Papers

October 12, 2024

Rethinking Data Selection at Scale: Random Selection is Almost All You Need
Tingyu Xia, Bowen Yu, Kai Dang, An Yang, Yuan Wu, Yuan Tian, Yi Chang, Junyang Lin
Training Data Visual Analogue Scale Supervised Fine Tuning Data Selection Large Scale Datasets Random Selection Long Text Data

July 3, 2024

Learning to Reduce: Towards Improving Performance of Large Language Models on Structured Data
Younghun Lee, Sungchul Kim, Ryan A. Rossi, Tong Yu, Xiang Chen
Language Model LeArning Abstract System Performance Structured Data Long Text Data

February 22, 2024

Learning to Reduce: Optimal Representations of Structured Data in Prompting Large Language Models
Younghun Lee, Sungchul Kim, Tong Yu, Ryan A. Rossi, Xiang Chen
Large Language Model Language Model LeArning Abstract Structured Data Reasoning Performance Optimal Representation Long Text Data

November 29, 2023

DSS: Synthesizing long Digital Ink using Data augmentation, Style encoding and Split generation
Aleksandr Timofeev, Anastasiia Fadeeva, Andrei Afonin, Claudiu Musat, Andrii Maksai
Generative Model Data Augmentation Encoder Decoder Model \Sigma}{\Delta}$ Low Pas RNN Long Form Generation Long Text Data Digital Ink

June 13, 2023

Large-scale Language Model Rescoring on Long-form Data
Tongzhou Chen, Cyril Allauzen, Yinghui Huang, Daniel Park, David Rybach, W. Ronny Huang, Rodrigo Cabrera, Kartik Audhkhasi, Bhuvana Ramabhadran, Pedro J. Moreno, Michael Riley
Language Model Automatic Speech Recognition Large Scale Language Model Language Model Rescoring Long Form Long Text Data

June 12, 2023

Recurrent Attention Networks for Long-text Modeling
Xianming Li, Zongxi Li, Xiaotian Luo, Haoran Xie, Xing Lee, Yingbin Zhao, Fu Lee Wang, Qing Li
Long Document Long Text Data Recurrent Attention Long Text Modeling

October 25, 2022

How Long Is Enough? Exploring the Optimal Intervals of Long-Range Clinical Note Language Modeling
Samuel Cahyawijaya, Bryan Wilie, Holy Lovenia, Huan Zhong, MingQian Zhong, Yuk-Yu Nancy Ip, Pascale Fung
Long Span Long Clinical Long Text Data Clinical Large Language Model

October 21, 2022

LittleBird: Efficient Faster & Longer Transformer for Question Answering
Minchul Lee, Kijong Han, Myeong Cheol Shin
Question Answering NLP Task Long Span Long Input Long Text Data Long Input Transformer

September 13, 2022

SkIn: Skimming-Intensive Long-Text Classification Using BERT for Medical Corpus
Yufeng Zhao, Haiying Che
Large Corpus BERT Model Ticket BERT Medical Corpus Long Text Data Skin Region Long Text Classification

April 6, 2022

Domain Specific Fine-tuning of Denoising Sequence-to-Sequence Models for Natural Language Summarization
Brydon Parker, Alik Sokolov, Mahtab Ahmed, Matt Kalebic, Sedef Akinli Kocak, Ofer Shai
Natural Language Processing Fine Tuning Structured Summary Natural Language Processing Model Sequence to Sequence Model Transformer Based Summarization Model Long Text Data

Long Text Data

Papers

Rethinking Data Selection at Scale: Random Selection is Almost All You Need

Learning to Reduce: Towards Improving Performance of Large Language Models on Structured Data

Learning to Reduce: Optimal Representations of Structured Data in Prompting Large Language Models

DSS: Synthesizing long Digital Ink using Data augmentation, Style encoding and Split generation

Large-scale Language Model Rescoring on Long-form Data

Recurrent Attention Networks for Long-text Modeling

How Long Is Enough? Exploring the Optimal Intervals of Long-Range Clinical Note Language Modeling

LittleBird: Efficient Faster & Longer Transformer for Question Answering

SkIn: Skimming-Intensive Long-Text Classification Using BERT for Medical Corpus

Domain Specific Fine-tuning of Denoising Sequence-to-Sequence Models for Natural Language Summarization