6
0
0
介绍详情
ART - Agent Reinforcement Trainer
概述
ART(Agent Reinforcement Trainer)是一个开源的强化学习(RL)框架,旨在提高代理(agent)的可靠性,使大语言模型(LLMs)能够从经验中学习。ART提供了一个符合人体工程学的接口,便于将GRPO(一种强化学习算法)集成到任何Python应用程序中。
主要特性
- MCP•RL:无需标注数据,通过分析服务器工具自动训练模型有效使用MCP(Model Context Protocol)服务器。
- 通用性强:适用于优化任何MCP服务器的模型性能。
- 高性能:在2/3的基准测试中匹配或超过最先进的性能。
- 易于集成:无需自定义MCP服务器。
支持模型
ART兼容大多数vLLM/HuggingFace-transformers支持的因果语言模型,包括但不限于Qwen2.5、Qwen3和Llama。目前暂不支持Gemma 3。
安装与使用
安装
pip install openpipe-art
训练循环概述
推理:
- 使用ART客户端执行代理工作流。
- 完成请求被路由到ART服务器,运行模型的最新LoRA。
- 每个系统、用户和助手的消息存储在轨迹(Trajectory)中。
- 当一次滚动完成时,代码为其轨迹分配一个奖励,表示模型的性能。
训练:
- 轨迹分组后发送到服务器进行训练。
- 服务器使用GRPO训练模型,从最新检查点初始化。
- 新训练的LoRA保存到本地目录并加载到vLLM。
应用案例
- MCP•RL:训练Qwen 2.5 3B掌握NWS MCP服务器。
- ART•E:训练Qwen 2.5 7B学习使用RULER搜索电子邮件。
- 2048:训练Qwen 2.5 3B学习玩2048游戏。
贡献与许可
ART处于活跃开发阶段,欢迎贡献。源代码基于Apache-2.0许可证发布。
引用
@misc{hilton2025art,
author = {Brad Hilton et al.},
title = {ART: Agent Reinforcement Trainer},
year = {2025},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/openpipe/art}}
}
了解更多
访问ART GitHub仓库获取更多信息和最新动态。

数智AI导航是专业的AI工具导航平台,每日精准收录了前沿又好用的各种人工智能工具,在这里你可以发现和使用最酷的AI工具!
Copyright©2024-2026 数智AI
浙ICP备2024109125号-1