ART

ART（Agent Reinforcement Trainer）是一个开源的强化学习框架，专为训练多步代理解决现实世界任务而设计。它支持Qwen2.5、Qwen3、Llama等模型，采用GRPO算法进行训练，无需标注数据即可优化模型性能。

标签： ART Agent Reinforcement Trainer GRPO 强化学习多步代理 Qwen Llama 开源RL框架

介绍详情

ART - Agent Reinforcement Trainer

概述

ART（Agent Reinforcement Trainer）是一个开源的强化学习（RL）框架，旨在提高代理（agent）的可靠性，使大语言模型（LLMs）能够从经验中学习。ART提供了一个符合人体工程学的接口，便于将GRPO（一种强化学习算法）集成到任何Python应用程序中。

主要特性

MCP•RL：无需标注数据，通过分析服务器工具自动训练模型有效使用MCP（Model Context Protocol）服务器。
通用性强：适用于优化任何MCP服务器的模型性能。
高性能：在2/3的基准测试中匹配或超过最先进的性能。
易于集成：无需自定义MCP服务器。

支持模型

ART兼容大多数vLLM/HuggingFace-transformers支持的因果语言模型，包括但不限于Qwen2.5、Qwen3和Llama。目前暂不支持Gemma 3。

安装与使用

安装

pip install openpipe-art

训练循环概述

推理：
- 使用ART客户端执行代理工作流。
- 完成请求被路由到ART服务器，运行模型的最新LoRA。
- 每个系统、用户和助手的消息存储在轨迹（Trajectory）中。
- 当一次滚动完成时，代码为其轨迹分配一个奖励，表示模型的性能。
训练：
- 轨迹分组后发送到服务器进行训练。
- 服务器使用GRPO训练模型，从最新检查点初始化。
- 新训练的LoRA保存到本地目录并加载到vLLM。

应用案例

MCP•RL：训练Qwen 2.5 3B掌握NWS MCP服务器。
ART•E：训练Qwen 2.5 7B学习使用RULER搜索电子邮件。
2048：训练Qwen 2.5 3B学习玩2048游戏。

贡献与许可

ART处于活跃开发阶段，欢迎贡献。源代码基于Apache-2.0许可证发布。

引用

@misc{hilton2025art,
  author = {Brad Hilton et al.},
  title = {ART: Agent Reinforcement Trainer},
  year = {2025},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/openpipe/art}}
}

了解更多

访问ART GitHub仓库获取更多信息和最新动态。

热门网址