nasde-benchmark-creator
创建编码代理基准以使用 nasde 进行评估。当用户想要执行以下操作时,请使用此技能: - 创建新的基准项目(用于评估编码代理的任务集) - 将任务添加到现有基准 - 创建或修改代理变体(控制代理行为的配置) - 设置评估维度和评分标准 - 验证新基准的 Docker 环境和测试是否有效 即使用户没有说“基准” - 如果他们正在谈论为 AI 代理创建编码挑战或设置评估标准,则此技能也适用。 --- # NASDE Benchmark Creator 创建并配置编码代理基准以使用“nasde”进行评估。基准测试是人工智能代理在隔离的 Docker 容器内解决的一组编码任务,通过功能测试(通过/失败)和 LLM-as-a-Judge 架构评估进行评分。 ## 步骤 1:了解要评估的内容 在创建文件之前,请向用户澄清: - 什么编程语言/框架? (确定 Dockerfile 基础镜像) - 什么样的编码挑战? (功能实现、重构、错误修复等) - 代理应该在什么源存储库上工作? (在 Dockerfile 中克隆的 git URL)- 应该评估哪些质量维度? (这些是特定于基准测试的,不是硬编码的) ## 步骤 2:搭建或创建项目 对于新的基准测试,请运行: ```bash nasde init my-benchmark --name my-benchmark ``` 这将创建基本结构。然后自定义生成的文件。要将任务添加到现有基准,请跳至步骤 4。 ## 步骤 3:定义评估维度 编辑 `assessment_dimensions.json`。每个基准测试都有其自己的维度——根据该基准测试领域的重要内容来设计它们。
更新日志: Source: GitHub https://github.com/NoesisVision/nasde-toolkit
评论加载中...