batch-sweep

分类: 数据与AI | 上传者: AMD-AGIAMD-AGI | 下载: 0 | 版本: v1.0(最新)

四种扫描操作: (1) 模型性能扫描 — 找到模型的最佳批量大小/TGS。用于:扫描批量大小、调整 TGS、基准吞吐量、查找最佳配置。 (2) 节点性能扫描 — 比较每个节点的 GPU 性能以查找异常值。用于:检查节点、节点性能、查找慢节点、比较节点。 (3) 节点网络健康扫描——通过多节点平分检测节点间网络问题。用于:网络健康状况、IB 问题、RCCL 问题、节点对测试、隔离网络问题。 (4) 模型扫描 — 在一次或两次提交上运行所有模型配置。用于:回归测试、验证提交、测试所有模型、冒烟测试、CI、比较分支。

更新日志: Source: GitHub https://github.com/AMD-AGI/maxtext-slurm

目录结构

当前层级: tree/main/skills/batch-sweep/

  • 📄 SKILL.md 23.4 KB

SKILL.md

登录后下载/点赞/收藏 ❤ 27 | ★ 0
评论 0

请先登录后评论。

评论加载中...