eval

分类: 工具与效率 | 上传者: agentevals-dev | 下载: 0 | 版本: v1.0（最新）

根据黄金参考对座席行为进行评估和评分。每当用户想要运行评估、检查通过/失败状态、了解指标分数、比较会话的回归、验证代理行为或对文件或实时会话的跟踪进行评分时，请使用此技能。触发诸如“评估此跟踪”、“检查我的代理输出”、“我的代理是否做了正确的事情”、“比较运行”、“我的代理回归了吗”、“对会话 X 进行评分”、“针对黄金进行评估”、“运行评估”等短语。适用于本地跟踪文件和实时流会话。 --- 评估代理行为并解释分数的含义。 ## 确定输入类型首先，确定要评估的内容： - **跟踪文件** — 用户提及 `.json` 或 `.jsonl` 文件路径 → 使用 `evaluate_traces` - **Sessions 与 Golden** — 用户有多个实时会话并希望进行回归测试 → 使用 `evaluate_sessions` - **单个实时会话** — 用户希望针对黄金评估集对一个会话进行评分 → 指导他们将 `evaluate_sessions` 与一个会话一起使用Golden ## 评估跟踪文件 1. 获取文件路径。检查扩展名： `.jsonl` → `trace_format: "otlp-json"` | `.json` → `"jaeger-json"`（默认） 2. 询问他们是否有黄金评估集 JSON。对于“tool_trajectory_avg_score”（默认指标），需要一个评估集 - 它提供了要进行比较的预期工具调用序列。如果他们还没有，请解释这一点并建议从“hallucinations_v1”开始，或者询问他们是否想首先从参考运行中创建一个黄金集。 3. 使用文件、格式和评估集调用“evaluate_traces”。 4. 以分数表形式呈现结果（请参阅下面的分数解释）并解释失败的原因。 ## 评估会话（回归测试）此工作流程要求服务器使用“--dev”标志运行（启用 WebSocket 和会话流）。普通的“agentevasserve”不会有会话。如果您从下面的任何工具中收到连接错误，请告诉用户：``bash uv run agentevalsserve --dev``

更新日志: Source: GitHub https://github.com/agentevals-dev/agentevals

eval

目录结构

SKILL.md

eval

目录结构

SKILL.md

举报内容

提示