Notion Blog by Xiaoyang Li, Weixun Wang and Yancheng He | Project Leader: Weixun Wang | March 5, 2026
English Version: Save, Load and Learn: Boosting Agentic LLMs via Rollback-based Curriculum Learning
<aside>
📄 技术报告: https://arxiv.org/pdf/2512.24873
🧠 模型: https://huggingface.co/FutureLivingLab/iFlow-ROME
🧩 框架:
📊 Benchmarks: https://github.com/alibaba/terminal-bench-pro
</aside>
在技术报告***《Let It Flow: Agentic Crafting on Rock and Roll》中,我们提出了Rollback-based Curriculum Learning*(报告中称为“Chunk-Level Initialized Resampling”),以应对Agentic RL在长时域、超高难度任务中面临的挑战。受篇幅限制,技术报告仅涵盖部分方法,许多关于这一方案的设计细节与实践考量尚未展开说明。
本文将全面阐述 Rollback-based Curriculum Learning 的框架细节(以下简称Rollback),涵盖核心算法、理论动机、实践中的细节以及多种实用变体,从而帮助大家更好地在实际训练中使用这一方法。在此过程中,我们将解答三个核心问题:
<aside>
若您对我们的智能体(Agent)训练流程的其他部分感兴趣,请参阅我们的技术报告及博客:
技术报告:https://arxiv.org/pdf/2512.24873
博客:The Bitter Lesson Behind Building Agentic RL in Terminal Environments
</aside>
Rollback是一种适用于长程、多轮Agentic任务的课程学习框架。该方法以验证成功的参考轨迹为基础,将中间状态作为检查点(Checkpoint)构建时序课程。训练将会从接近终点的检查点开始,随着模型能力提升逐步**回溯(Roll-Back)**到更早的检查点,直至智能体(Agent)能从原始初始状态可靠地端到端完成任务。

Rollback算法示意图 (由Gemini辅助生成)