DeepTrace 分布式训练的实时诊断与分析工具

授权协议:None操作系统:None 开发语言:None
DeepTrace是一种分布式训练中任务排查、诊断的实现方案。它采用client-agent的结构设计,agent轻量级部署,对训练任务侵入性小。client和agent使用gRPC协议,支持实...