Long Context Task

Long-context tasks challenge language models (LLMs) to process and reason over significantly extended text inputs, exceeding the typical context window limitations. Current research focuses on improving LLMs' ability to effectively retrieve and utilize relevant information from these long contexts, exploring techniques like adaptive attention mechanisms (e.g., MixAttention), efficient KV cache management, and novel training strategies (e.g., continued pre-training with diverse data sources, synthetic data augmentation). These advancements aim to enhance LLMs' performance on various applications requiring comprehensive understanding of extensive textual information, such as document summarization, question answering, and code generation, ultimately improving the efficiency and capabilities of large language models.

Papers

July 16, 2024

NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?
Mo Li, Songyang Zhang, Yunxin Liu, Kai Chen
Large Language Model Complex Reasoning App to App Retrieval Long Context Long Context Task Context Window Long Context Scenario

July 11, 2024

Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks
Zheng Wang, Boxiao Jin, Zhongzhi Yu, Minjia Zhang
Large Language Model Long Context Task KV Cache KV Cache Compression

July 1, 2024

June 29, 2024

Is It Really Long Context if All You Need Is Retrieval? Towards Genuinely Difficult Long Context NLP
Omer Goldman, Alon Jacovi, Aviv Slobodkin, Aviya Maimon, Ido Dagan, Reut Tsarfaty
App to App Retrieval Long Context Long Context Task

June 27, 2024

From Artificial Needles to Real Haystacks: Improving Retrieval Capabilities in LLMs by Finetuning on Synthetic Data
Zheyang Xiong, Vasilis Papageorgiou, Kangwook Lee, Dimitris Papailiopoulos
Large Language Model Synthetic Data Retrieval Performance Needle Insertion Long Context Task Key Value Video Haystack Context Augmentation Long Context Input

June 4, 2024

Chain of Agents: Large Language Models Collaborating on Long-Context Tasks
Yusen Zhang, Ruoxi Sun, Yanfei Chen, Tomas Pfister, Rui Zhang, Sercan Ö. Arik
Agent Smith Long Context Side Chain Long Context Task

May 24, 2024

Are Long-LLMs A Necessity For Long-Context Tasks?
Hongjin Qian, Zheng Liu, Peitian Zhang, Kelong Mao, Yujia Zhou, Xu Chen, Zhicheng Dou
Long Context Community Need Long Context Task Long Context LLM Long Context Benchmark

May 9, 2024

DOLOMITES: Domain-Specific Long-Form Methodical Tasks
Chaitanya Malaviya, Priyanka Agrawal, Kuzman Ganchev, Pranesh Srinivasan, Fantine Huot, Jonathan Berant, Mark Yatskar, Dipanjan Das, Mirella Lapata, Chris Alberti
Modern Language Model Task Specification Long Context Task Long Form Generation Writing Path

May 7, 2024

Long Context Alignment with Short Instructions and Synthesized Positions
Wenhao Wu, Yizhong Wang, Yao Fu, Xiang Yue, Dawei Zhu, Sujian Li
Long Context Human Instruction New Perspective Long Context Task

April 25, 2024

Make Your LLM Fully Utilize the Context
Shengnan An, Zexiong Ma, Zeqi Lin, Nanning Zheng, Jian-Guang Lou
Training Data Medical LLM Question Answering Context Information Long Context Long Context Task

April 18, 2024

Length Generalization of Causal Transformers without Position Encoding
Jie Wang, Tao Ji, Yuanbin Wu, Hang Yan, Tao Gui, Qi Zhang, Xuanjing Huang, Xiaoling Wang
Transformer Based Language Model Length Generalization Causal Transformer Long Context Task Position Encoding

April 14, 2024

TransformerFAM: Feedback attention is working memory
Dongseong Hwang, Weiran Wang, Zhuoyuan Huo, Khe Chai Sim, Pedro Moreno Mengibar
Transformer Based Memory Trace Long Context Task Transformer Performance Novel Transformer Architecture Click Feedback

April 2, 2024

ZeroCAP: Zero-Shot Multi-Robot Context Aware Pattern Formation via Large Language Models
Vishnunandan L. N. Venkatesh, Byung-Cheol Min
Vision Language Model Language Conditioned Long Context Task Pattern Formation Robot Formation Soft Cap

February 27, 2024

Training-Free Long-Context Scaling of Large Language Models
Chenxin An, Fei Huang, Jun Zhang, Shansan Gong, Xipeng Qiu, Chang Zhou, Lingpeng Kong
Dynamic ModulE Attention Computation Long Context Task

February 2, 2024

Nomic Embed: Training a Reproducible Long Context Text Embedder
Zach Nussbaum, John X. Morris, Brandon Duderstadt, Andriy Mulyar
Long Context Task Reproducible Research Text Pair

January 31, 2024

LongAlign: A Recipe for Long Context Alignment of Large Language Models
Yushi Bai, Xin Lv, Jiajie Zhang, Yuze He, Ji Qi, Lei Hou, Jie Tang, Yuxiao Dong, Juanzi Li
Large Language Model Long Context Instruction Following Complete Recipe Instruction Fine Tuning Long Context Task

January 13, 2024

E^2-LLM: Efficient and Extreme Length Extension of Large Language Models
Jiaheng Liu, Zhiqi Bai, Yuanxing Zhang, Chenchen Zhang, Yu Zhang, Ge Zhang, Jiakai Wang, Haoran Que, Yukang Chen, Wenbo Su, Tiezheng Ge, Jie Fu, Wenhu Chen, Bo Zheng
Long Context Long Context Task Context Size

December 28, 2023

Structured Packing in LLM Training Improves Long Context Utilization
Konrad Staniszewski, Szymon Tworkowski, Sebastian Jaszczur, Yu Zhao, Henryk Michalewski, Łukasz Kuciński, Piotr Miłoś
Long Context Long Context Large Language Model LLM Training Long Context Task Input Context Online Packing Context Utilization

December 18, 2023

Training With "Paraphrasing the Original Text'' Improves Long-Context Performance
Yijiong Yu
Training Data Long Context Long Context Task Long Context Scenario Long Context Input