Long Context Large Language Model

Long-context large language models (LLMs) aim to overcome the limitations of traditional LLMs by processing significantly longer input sequences, enabling more comprehensive understanding and generation of text. Current research focuses on improving efficiency through techniques like sparse attention mechanisms, optimized memory management (e.g., KV cache compression), and efficient training strategies, as well as developing robust evaluation benchmarks that assess performance on diverse, realistic long-context tasks. This field is crucial for advancing natural language processing capabilities in applications requiring deep understanding of extensive documents, such as multi-document summarization, question answering, and complex reasoning tasks across various domains.

Papers

September 25, 2024

Discovering the Gems in Early Layers: Accelerating Long-Context LLMs with 1000x Input Token Reduction
Zhenmei Shi, Yifei Ming, Xuan-Phi Nguyen, Yingyu Liang, Shafiq Joty
Long Context LLM Inference Long Context Large Language Model Early Layer Long Context Input

September 17, 2024

Investigating Context-Faithfulness in Large Language Models: The Roles of Memory Strength and Evidence Style
Yuepei Li, Kang Zhou, Qiao Qiao, Bach Nguyen, Qing Wang, Qi Li
Retrieval Augmented Generation Evidence Piece Response Generation Long Context Large Language Model Multi Role Memorization Capacity Contextual Integrity

September 4, 2024

August 30, 2024

Training Ultra Long Context Language Model with Fully Pipelined Distributed Transformer
Jinghan Yao, Sam Ade Jacobs, Masahiro Tanaka, Olatunji Ruwase, Aamir Shafi, Hari Subramoni, Dhabaleswar K. Panda
Transformer Based Long Context Large Language Model Long Context Language Long Sequence Processing

August 13, 2024

LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs
Yushi Bai, Jiajie Zhang, Xin Lv, Linzhi Zheng, Siqi Zhu, Lei Hou, Yuxiao Dong, Jie Tang, Juanzi Li
Large Language Model Structured Output Long Span Long Context Large Language Model Long Context LLM Generation Capability Tongue Twister

July 23, 2024

July 12, 2024

Human-like Episodic Memory for Infinite Context LLMs
Zafeirios Fountas, Martin A Benfeghoul, Adnan Oomerjee, Fenia Christopoulou, Gerasimos Lampouras, Haitham Bou-Ammar, Jun Wang
Large Language Model Episodic Memory Long Context Large Language Model Human Memory Human Like Memory Event Perception

July 10, 2024

Examining Long-Context Large Language Models for Environmental Review Document Comprehension
Hung Phan, Anurag Acharya, Rounak Meyur, Sarthak Chaturvedi, Shivam Sharma, Mike Parker, Dan Nally, Ali Jannesari, Karl Pazdernik, Mahantesh Halappanavar, Sai Munikoti, Sameera Horawalavithana
Language Model Long Context Long Context Large Language Model Question Answering System Policy Adaptation Kg Rag

July 1, 2024

KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches
Jiayi Yuan, Hongyi Liu, Shaochen Zhong, Yu-Neng Chuang, Songchen Li, Guanchu Wang, Duy Le, Hongye Jin, Vipin Chaudhary, Zhaozhuo Xu, Zirui Liu, Xia Hu
Large Language Model Long Context Customer Service Comprehensive Benchmark Long Context Large Language Model Long Context Task KV Cache Compression Long Context Input

June 26, 2024

UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs
Wenhao Li, Mingbao Lin, Yunshan Zhong, Shuicheng Yan, Rongrong Ji
Large Language Model Long Context Context Length Long Context Large Language Model Fully Connected Neural Network Black Box Large Language Model Unbiased Gradient Memory Based Transformer

June 25, 2024

Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA
Minzheng Wang, Longze Chen, Cheng Fu, Shengyi Liao, Xinghua Zhang, Bingli Wu, Haiyang Yu, Nan Xu, Lei Zhang, Run Luo, Yunshui Li, Min Yang, Fei Huang, Yongbin Li
Long Context Long Context Large Language Model Long Context Language Long Context Understanding Long Context Benchmark Document Question Answering

June 18, 2024

Retrieval Meets Reasoning: Dynamic In-Context Editing for Long-Text Understanding
Weizhi Fei, Xueyan Niu, Guoqing Xie, Yanhua Zhang, Bo Bai, Lei Deng, Wei Han
Complex Reasoning Retrieval Augmented Generation App to App Retrieval Long Context Long Context Large Language Model Long Text Understanding Context Editing

June 17, 2024

Can Many-Shot In-Context Learning Help LLMs as Evaluators? A Preliminary Empirical Study
Mingyang Song, Mao Zheng, Xuan Luo
Context Example Long Context Large Language Model Shot in Context Learning Long Context LLM Fine Tuned Judge Model

June 16, 2024

Quest: Query-Aware Sparsity for Efficient Long-Context LLM Inference
Jiaming Tang, Yilong Zhao, Kan Zhu, Guangxuan Xiao, Baris Kasikci, Song Han
Self Attention Inference Latency Long Context Large Language Model KV Cache Long Context LLM QueST Sparsity Aware

June 11, 2024

An Efficient Recipe for Long Context Extension via Middle-Focused Positional Encoding
Tong Wu, Yanpeng Zhao, Zilong Zheng
Pre Trained Feature Enhancement Pre Trained Large Language Model Complete Recipe Context Length Long Context Large Language Model Rhythm Game Context Window

June 9, 2024

SinkLoRA: Enhanced Efficiency and Chat Capabilities for Long-Context Large Language Models
Hengyu Zhang
High Efficiency Sparse Attention Long Context Large Language Model Sequence Length Token Attention

June 2, 2024

LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models
Liang Zhao, Tianwen Wei, Liang Zeng, Cheng Cheng, Liu Yang, Peng Cheng, Lijie Wang, Chenxia Li, Xuejie Wu, Bo Zhu, Yimeng Gan, Rui Hu, Shuicheng Yan, Han Fang, Yahui Zhou
Long Context Context Length Long Context Large Language Model Long Context LLM Long Context Language Training Recipe

April 2, 2024

Long-context LLMs Struggle with Long In-context Learning
Tianle Li, Ge Zhang, Quy Duc Do, Xiang Yue, Wenhu Chen
Long Context Long Context Large Language Model Label Space Long Context Understanding

Long Context Large Language Model

Papers

Discovering the Gems in Early Layers: Accelerating Long-Context LLMs with 1000x Input Token Reduction

Investigating Context-Faithfulness in Large Language Models: The Roles of Memory Strength and Evidence Style

LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA

DetectiveQA: Evaluating Long-Context Reasoning on Detective Novels

Training Ultra Long Context Language Model with Fully Pipelined Distributed Transformer

LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs

Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach

Stress-Testing Long-Context Language Models with Lifelong ICL and Task Haystack

Human-like Episodic Memory for Infinite Context LLMs

Examining Long-Context Large Language Models for Environmental Review Document Comprehension

KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches

UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs

Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA

Retrieval Meets Reasoning: Dynamic In-Context Editing for Long-Text Understanding

Can Many-Shot In-Context Learning Help LLMs as Evaluators? A Preliminary Empirical Study

Quest: Query-Aware Sparsity for Efficient Long-Context LLM Inference

An Efficient Recipe for Long Context Extension via Middle-Focused Positional Encoding

SinkLoRA: Enhanced Efficiency and Chat Capabilities for Long-Context Large Language Models

LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models

Long-context LLMs Struggle with Long In-context Learning