rStar2-Agent 数学推理模型

授权协议:None操作系统:None 开发语言:None
rStar2-Agent 是一个 14B 参数的数学推理模型,其核心在于实现更智能的思考而非单纯延长推理时间,通过纯粹的智能体强化学习,其性能可媲美 6710 亿参数的 DeepSeek-R1 ...