Skywork-Reward-V2是由八个奖励模型组成的系列,旨在实现广泛任务的多功能性,并基于 2600 万个精心挑选的偏好对进行训练。Skywork-Reward-V2 系列虽然仍然基于 B...<