Notion Blog by Xiaoyang Li, Weixun Wang and Yancheng He | Project Leader: Weixun Wang | March 5, 2026

English Version: Save, Load and Learn: Boosting Agentic LLMs via Rollback-based Curriculum Learning

<aside>

📄 技术报告: https://arxiv.org/pdf/2512.24873

🧠 模型: https://huggingface.co/FutureLivingLab/iFlow-ROME

🧩 框架:

RL训练框架: https://github.com/alibaba/ROLL
沙盒环境管理: https://github.com/alibaba/ROCK
Agent框架: https://github.com/iflow-ai/iflow-cli

📊 Benchmarks: https://github.com/alibaba/terminal-bench-pro

</aside>

1. 引言

在技术报告***《Let It Flow: Agentic Crafting on Rock and Roll》中，我们提出了Rollback-based Curriculum Learning*（报告中称为“Chunk-Level Initialized Resampling”），以应对Agentic RL在长时域、超高难度任务中面临的挑战。受篇幅限制，技术报告仅涵盖部分方法，许多关于这一方案的设计细节与实践考量尚未展开说明。

本文将全面阐述 Rollback-based Curriculum Learning 的框架细节（以下简称Rollback），涵盖核心算法、理论动机、实践中的细节以及多种实用变体，从而帮助大家更好地在实际训练中使用这一方法。在此过程中，我们将解答三个核心问题：

Rollback是什么？（What）
为什么Rollback至关重要？（Why）
如何在实践中应用Rollback？（How）

<aside>

若您对我们的智能体（Agent）训练流程的其他部分感兴趣，请参阅我们的技术报告及博客：

技术报告：https://arxiv.org/pdf/2512.24873

博客：The Bitter Lesson Behind Building Agentic RL in Terminal Environments

</aside>

2. 基于Rollback的课程学习（What）

2.1 定义

Rollback是一种适用于长程、多轮Agentic任务的课程学习框架。该方法以验证成功的参考轨迹为基础，将中间状态作为检查点（Checkpoint）构建时序课程。训练将会从接近终点的检查点开始，随着模型能力提升逐步**回溯（Roll-Back）**到更早的检查点，直至智能体（Agent）能从原始初始状态可靠地端到端完成任务。

Rollback算法示意图 (由Gemini辅助生成)

1. 引言

2. 基于Rollback的课程学习（What）

2.1 定义

2.2 核心算法