auto-arena
自动评估和比较多个 AI 模型或代理,无需预先存在测试数据。从任务描述生成测试查询,从所有目标端点收集响应,自动生成评估标准,通过判断模型运行成对比较,并通过报告和图表生成胜率排名。支持检查点恢复、增量端点添加、判断模型热插拔。当用户要求在自定义任务上对多个模型或代理进行比较、基准测试或排名,或运行竞技场式评估时使用。 --- # Auto Arena Skill 使用 OpenJudge `AutoArenaPipeline` 进行端到端自动化模型比较: 1. **生成查询** — LLM 根据任务描述创建不同的测试查询 2. **收集响应** — 同时查询所有目标端点 3. **生成细则** — LLM 从任务 + 示例查询中生成评估标准 4. **成对评估** - 判断模型比较每个模型对(位置偏差交换) 5. **分析和排名** - 计算胜率、胜率矩阵和排名 6. **报告和图表** - Markdown 报告 + 胜率条形图 + 可选矩阵热图 ## 先决条件 ```bash # 安装 OpenJudge pip install py-openjudge # auto_arena (图表生成)的额外依赖项 pip install matplotlib ``` ## 之前从用户处收集跑步|信息 |必需的? |笔记| |------|---------|--------| |任务描述|是的 |模型/代理应该做什么(在配置 YAML 中设置)| |目标端点|是的 |至少 2 个 OpenAI 兼容端点可供比较 | |判断端点|是的 |用于成对评估的强大模型(例如“gpt-4”、“qwen-max”)| | API 密钥 |是的 |环境变量:`OPENAI_API_KEY`、`DASHSCOPE_API_KEY`等。 | |查询数量 |没有 |默认值:`20` | |种子查询 |没有 |指导生成风格的示例查询 | |系统提示|没有 |每个端点系统提示| |输出目录 |没有 |默认值:`./evaluation_results` | |报告语言 |没有 | `"zh"`(默认)或 `"en"` | ## 快速启动 ### CLI `
更新日志: Source: GitHub https://github.com/agentscope-ai/OpenJudge
还没有评论,快来第一个发言吧。