eval

分类: 工具与效率 | 上传者: agentevals-devagentevals-dev | 下载: 0 | 版本: v1.0(最新)

根据黄金参考对座席行为进行评估和评分。每当用户想要运行评估、检查通过/失败状态、了解指标分数、比较会话的回归、验证代理行为或对文件或实时会话的跟踪进行评分时,请使用此技能。触发诸如“评估此跟踪”、“检查我的代理输出”、“我的代理是否做了正确的事情”、“比较运行”、“我的代理回归了吗”、“对会话 X 进行评分”、“针对黄金进行评估”、“运行评估”等短语。适用于本地跟踪文件和实时流会话。 --- 评估代理行为并解释分数的含义。 ## 确定输入类型 首先,弄清楚要评估的内容: - **跟踪文件** — 用户提到 `.json` 或 `.jsonl` 文件路径 → 使用 `evaluate_traces` - **Sessions 与 Golden** — 用户有多个实时会话并希望进行回归测试 → 使用 `evaluate_sessions` - **单个实时会话** — 用户想要针对黄金评估集对一个会话进行评分 → 指导他们将 `evaluate_sessions` 与一个会话一起使用Golden ## 评估跟踪文件 1. 获取文件路径。检查扩展名: `.jsonl` → `trace_format: "otlp-json"` | `.json` → `"jaeger-json"`(默认) 2. 询问他们是否有黄金评估集 JSON。对于“tool_trajectory_avg_score”(默认指标),需要一个评估集 - 它提供了要进行比较的预期工具调用序列。 如果他们还没有,请解释这一点并建议从“hallucinations_v1”开始,或者询问他们是否想首先从参考运行中创建一个黄金集。 3. 使用文件、格式​​和评估集调用“evaluate_traces”。 4. 以分数表形式呈现结果(请参阅下面的分数解释)并解释失败的原因。 ## 评估会话(回归测试) 此工作流程要求服务器使用“--dev”标志运行(启用 WebSocket 和会话流)。普通的“agentevasserve”不会有会话。如果您从下面的任何工具中收到连接错误,请告诉用户:``bash uv run agentevalsserve --dev``

更新日志: Source: GitHub https://github.com/agentevals-dev/agentevals

目录结构

当前层级: tree/main/.claude/skills/eval/

SKILL.md

登录后下载/点赞/收藏 ❤ 110 | ★ 0
评论 0

请先登录后评论。

还没有评论,快来第一个发言吧。