Verifiers LLM 强化学习环境

授权协议:None操作系统:None 开发语言:None
Verifiers 是一个模块化组件库,用于创建 RL 环境和训练 LLM 代理。 Verifiers 包含一个围绕transformersTrainer 构建的异步 GRPO 实现,支持pri...