clusterx 为不同云服务厂商的集群调度提供了统一的 CLI 和 Python API,屏蔽集群带来的差异性,让用户可以专注于任务本身,在 clusterx 支持的集群上,可以无缝迁移任务。...<
XTuner V1 是一个专为超大规模 MoE 模型打造的新一代大模型训练引擎。与传统 3D 并行训练架构相比,XTuner V1 针对当前学术界主流的 MoE 训练场景进行了深度优化。 核心特...<
DeepTrace是一种分布式训练中任务排查、诊断的实现方案。它采用client-agent的结构设计,agent轻量级部署,对训练任务侵入性小。client和agent使用gRPC协议,支持实...<