Self Instruct

Self-Instruct is a technique for improving large language models (LLMs) by training them on instructions generated by the models themselves, minimizing the need for extensive human annotation. Current research focuses on refining the self-instruction generation process, including using reinforcement learning to optimize instruction quality and diversity, and employing ensembles of models to improve the reliability of generated data. This approach offers a more efficient and scalable method for creating high-quality instruction datasets, leading to significant improvements in LLM performance across various tasks and languages, and potentially reducing the reliance on proprietary, large language models.

Papers

October 23, 2024

Unsupervised Domain Adaptation for Action Recognition via Self-Ensembling and Conditional Embedding Alignment
Indrajeet Ghosh, Garvit Chugh, Abu Zaher Md Faridee, Nirmalya Roy
Domain Adaptation Action Recognition Pseudo Label Unsupervised Domain Adaptation Distribution Alignment Based Human Activity Recognition Self Instruct

May 14, 2024

Seal-Tools: Self-Instruct Tool Learning Dataset for Agent Tuning and Detailed Benchmark
Mengsong Wu, Tong Zhu, Han Han, Chuanyuan Tan, Xiang Zhang, Wenliang Chen
Benchmark Study Agent Tuning Seal Generation Self Instruct

March 13, 2024

TeaMs-RL: Teaching LLMs to Generate Better Instruction Datasets via Reinforcement Learning
Shangding Gu, Alois Knoll, Ming Jin
Large Language Model Reinforcement Learning Multi Agent Reinforcement Learning Complex Instruction Self Instruct

March 6, 2024

Rapidly Developing High-quality Instruction Data and Evaluation Benchmark for Large Language Models with Minimal Human Effort: A Case Study on Japanese
Yikun Sun, Zhen Wan, Nobuhiro Ueda, Sakiko Yahata, Fei Cheng, Chenhui Chu, Sadao Kurohashi
Large Language Model GPT 4 Evaluation Benchmark Instruction Data Instruction Dataset Japanese Text High Quality Instruction Data Self Instruct

November 1, 2023

Enhanced Generalization through Prioritization and Diversity in Self-Imitation Reinforcement Learning over Procedural Environments with Sparse Rewards
Alain Andres, Daochen Zha, Javier Del Ser
Reinforcement Learning Sparse Reward Procedural Content Generation Sparse Reward Environment Priority Based Enhancing Generalization Self Instruct

October 21, 2023

Ensemble-Instruct: Generating Instruction-Tuning Data with a Heterogeneous Mixture of LMs
Young-Suk Lee, Md Arafat Sultan, Yousef El-Kurdi, Tahira Naseem Asim Munawar, Radu Florian, Salim Roukos, Ramón Fernandez Astudillo
Language Model Context Learning Raw Data Tuned Lm Heterogeneous Medium Self Instruct

October 6, 2023

Ada-Instruct: Adapting Instruction Generators for Complex Reasoning
Wanyun Cui, Qianle Wang
Complex Reasoning Complex Instruction MPT 7b Instruct Instruction Generation Self Instruct

August 27, 2023

Confucius: Iterative Tool Learning from Introspection Feedback by Easy-to-Difficult Curriculum
Shen Gao, Zhengliang Shi, Minghang Zhu, Bowen Fang, Xin Xin, Pengjie Ren, Zhumin Chen, Jun Ma, Zhaochun Ren
Large Language Model Open Source Large Language Model Multi Stage Tool Learning Self Instruct

July 12, 2023

PolyLM: An Open Source Polyglot Large Language Model
Xiangpeng Wei, Haoran Wei, Huan Lin, Tianhao Li, Pei Zhang, Xingzhang Ren, Mei Li, Yu Wan, Zhiwei Cao, Binbin Xie, Tianxiang Hu, Shangjie Li, Binyuan Hui, Bowen Yu, Dayiheng Liu, Baosong Yang, Fei Huang, Jun Xie
Large Language Model Multilingual LLM Self Instruct

December 20, 2022

Self-Instruct: Aligning Language Models with Self-Generated Instructions
Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A. Smith, Daniel Khashabi, Hannaneh Hajishirzi
Language Model Instruction Following Instruction Data Instruction Dataset Self Instruct

Self Instruct

Papers

Unsupervised Domain Adaptation for Action Recognition via Self-Ensembling and Conditional Embedding Alignment

Seal-Tools: Self-Instruct Tool Learning Dataset for Agent Tuning and Detailed Benchmark

TeaMs-RL: Teaching LLMs to Generate Better Instruction Datasets via Reinforcement Learning

Rapidly Developing High-quality Instruction Data and Evaluation Benchmark for Large Language Models with Minimal Human Effort: A Case Study on Japanese

Enhanced Generalization through Prioritization and Diversity in Self-Imitation Reinforcement Learning over Procedural Environments with Sparse Rewards

Ensemble-Instruct: Generating Instruction-Tuning Data with a Heterogeneous Mixture of LMs

Ada-Instruct: Adapting Instruction Generators for Complex Reasoning

Confucius: Iterative Tool Learning from Introspection Feedback by Easy-to-Difficult Curriculum

PolyLM: An Open Source Polyglot Large Language Model

Self-Instruct: Aligning Language Models with Self-Generated Instructions