ART(Agent Reinforcement Trainer)是一个开源的强化学习框架,专为训练多步代理解决现实世界任务而设计。它支持Qwen2.5、Qwen3、Llama等模型,采用GRPO算法进行训练,无需标注数据即可优化模型性能。
浏览次数
6
收藏次数
0
点赞次数
0
ART
ART(Agent Reinforcement Trainer)是一个开源的强化学习框架,专为训练多步代理解决现实世界任务而设计。它支持Qwen2.5、Qwen3、Llama等模型,采用GRPO算法进行训练,无需标注数据即可优化模型性能。
标签: ART Agent Reinforcement Trainer GRPO 强化学习 多步代理 Qwen Llama 开源RL框架
介绍详情

ART - Agent Reinforcement Trainer

概述

ART(Agent Reinforcement Trainer)是一个开源的强化学习(RL)框架,旨在提高代理(agent)的可靠性,使大语言模型(LLMs)能够从经验中学习。ART提供了一个符合人体工程学的接口,便于将GRPO(一种强化学习算法)集成到任何Python应用程序中。

主要特性

  • MCP•RL:无需标注数据,通过分析服务器工具自动训练模型有效使用MCP(Model Context Protocol)服务器。
  • 通用性强:适用于优化任何MCP服务器的模型性能。
  • 高性能:在2/3的基准测试中匹配或超过最先进的性能。
  • 易于集成:无需自定义MCP服务器。

支持模型

ART兼容大多数vLLM/HuggingFace-transformers支持的因果语言模型,包括但不限于Qwen2.5、Qwen3和Llama。目前暂不支持Gemma 3。

安装与使用

安装

pip install openpipe-art

训练循环概述

  1. 推理

    • 使用ART客户端执行代理工作流。
    • 完成请求被路由到ART服务器,运行模型的最新LoRA。
    • 每个系统、用户和助手的消息存储在轨迹(Trajectory)中。
    • 当一次滚动完成时,代码为其轨迹分配一个奖励,表示模型的性能。
  2. 训练

    • 轨迹分组后发送到服务器进行训练。
    • 服务器使用GRPO训练模型,从最新检查点初始化。
    • 新训练的LoRA保存到本地目录并加载到vLLM。

应用案例

  • MCP•RL:训练Qwen 2.5 3B掌握NWS MCP服务器。
  • ART•E:训练Qwen 2.5 7B学习使用RULER搜索电子邮件。
  • 2048:训练Qwen 2.5 3B学习玩2048游戏。

贡献与许可

ART处于活跃开发阶段,欢迎贡献。源代码基于Apache-2.0许可证发布。

引用

@misc{hilton2025art,
  author = {Brad Hilton et al.},
  title = {ART: Agent Reinforcement Trainer},
  year = {2025},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/openpipe/art}}
}

了解更多

访问ART GitHub仓库获取更多信息和最新动态。