batch-sweep
四种扫描操作: (1) 模型性能扫描 — 找到模型的最佳批量大小/TGS。用于:扫描批量大小、调整 TGS、基准吞吐量、查找最佳配置。 (2) 节点性能扫描 — 比较每个节点的 GPU 性能以查找异常值。用于:检查节点、节点性能、查找慢节点、比较节点。 (3) 节点网络健康扫描——通过多节点平分检测节点间网络问题。用于:网络健康状况、IB 问题、RCCL 问题、节点对测试、隔离网络问题。 (4) 模型扫描 — 在一次或两次提交上运行所有模型配置。用于:回归测试、验证提交、测试所有模型、冒烟测试、CI、比较分支。
更新日志: Source: GitHub https://github.com/AMD-AGI/maxtext-slurm
评论加载中...