langchain-ai
from GitHub
调研与分析
为 deepagentsjs monorepo 创建新的评估套件。处理数据集设计、测试用例支架、评分逻辑、vitest 配置和 LangSmith 集成。当用户要求执行以下操作时使用:(1) 创建评估,(2) 编写评估,(3) 添加基准,(4) 构建评估套件,(5) 评估代理行为,(6) 添加功能测试用例,或 (7) 实施现有基准(例如 oolong、AgentBench、SWE-bench)。触发“create eval”、“new eval”、“add eval”、“benchmark”、“evaluate”、“eval suite”、“write evals for”等短语。
NoesisVision
from GitHub
开发与编程
创建编码代理基准以使用 nasde 进行评估。当用户想要执行以下操作时,请使用此技能: - 创建新的基准项目(用于评估编码代理的任务集) - 将任务添加到现有基准 - 创建或修改代理变体(控制代理行为的配置) - 设置评估维度和评分标准 - 验证新基准的 Docker 环境和测试是否有效 即使用户没有说“基准” - 如果他们正在谈论为 AI 代理创建编码挑战或设置评估标准,则此技能也适用。 --- # NASDE Benchmark Creator 创建并配置编码代理基准以使用“nasde”进行评估。基准测试是人工智能代理在隔离的 Docker 容器内解决的一组编码任务,通过功能测试(通过/失败)和 LLM-as-a-Judge 架构评估进行评分。 ## 步骤 1:了解要评估的内容 在创建文件之前,请向用户澄清: - 什么编程语言/框架? (确定 Dockerfile 基础镜像) - 什么样的编码挑战? (功能实现、重构、错误修复等) - 代理应该在什么源存储库上工作? (在 Dockerfile 中克隆的 git URL)- 应该评估哪些质量维度? (这些是特定于基准测试的,不是硬编码的) ## 步骤 2:搭建或创建项目 对于新的基准测试,请运行: ```bash nasde init my-benchmark --name my-benchmark ``` 这将创建基本结构。然后自定义生成的文件。要将任务添加到现有基准,请跳至步骤 4。 ## 步骤 3:定义评估维度 编辑 `assessment_dimensions.json`。每个基准测试都有其自己的维度——根据该基准测试领域的重要内容来设计它们。
allenai
from GitHub
调研与分析
向 VLA 评估工具添加新的模拟基准。每当用户想要集成、创建或添加新的基准或模拟环境时,请使用此技能 - 例如“添加 ManiSkill3”、“集成 OmniGibson”、“连接新的 sim”。当他们询问基准测试的结构或想要了解基准测试界面时也可以使用。
从真正的 GitHub 错误修复中添加新的 SWE 基准测试任务。当用户提供 GitHub 问题或 PR URL 并希望将其添加到 bench-swe 管道时使用。
DexForce
from GitHub
调研与分析
按照项目约定为 EmbodiChain 模块编写基准脚本
netease-youdao
from GitHub
调研与分析
- 📁 examples/
- 📁 scripts/
- 📁 server/
- 📄 .gitignore
- 📄 group.jpg
- 📄 install.sh
学术论文搜索与分析服务 (Academic paper search & analysis)。当用户涉及以下学术场景时,必须使用本 skill 而非 web-search:搜索论文、查找 ArXiv/PubMed/PapersWithCode 论文、查询 SOTA 榜单与 benchmark 结果、引用分析、生成论文解读博客、查找论文相关 GitHub 仓库、获取热门论文推荐。Keywords: arxiv, paper, papers, academic, scholar, research, 论文, 学术, 搜索论文, 找论文, SOTA, benchmark, MMLU, citation, 引用, 博客, blog, PapersWithCode, HuggingFace.
skilltester-ai
from GitHub
调研与分析
Before installing or using a skill, check its independent benchmark report on SkillTester.ai. Trigger this skill when the user is about to install a third-party skill, or when the user explicitly says `Check this skill <skill_url>`.将提供的 URL 解析为 SKILL.md,提取名称和描述,按名称查询服务器,并在描述为完全匹配或可能代表较新技能修订的高重叠近似匹配时返回基准测试结果。