agentic-eval

分类: 工具与效率 | 上传者: vchelaruvchelaru | 下载: 0 | 版本: v1.0(最新)

用于评估和改进人工智能代理输出的模式和技术。在以下情况下使用此技能: - 实施自我批评和反思循环 - 为质量关键的生成构建评估器优化器管道 - 创建测试驱动的代码细化工作流程 - 设计基于准则或 LLM 作为法官的评估系统 - 向代理输出(代码、报告、分析)添加迭代改进 - 测量和提高代理响应质量 --- # 代理评估模式 通过迭代评估和细化进行自我改进的模式。 ## 概述 评估模式使代理能够评估和改进自己的输出,从单次生成转向迭代细化循环。 ``` 生成 → 评估 → 批评 → 完善 → 输出 ↑ │ └──────────────────────────┘ ``` ## 何时使用 - **质量关键的生成**:需要高精度的代码、报告、分析 - **具有明确评估标准的任务**:存在定义的成功指标 - **需要特定标准的内容**:风格指南、合规性、格式化 --- ## 模式 1:基本反射代理通过以下方式评估和改进其自身的输出自我批评。 ```python def Reflect_and_refine(task: str, criteria: list[str], max_iterations: int = 3) -> str: """使用反射循环生成。""" output = llm(f"完成此任务:\n{task}") for i in range(max_iterations): # 自我批判 critique = llm(f"""

更新日志: Source: GitHub https://github.com/vchelaru/FlatRedBall2

目录结构

当前层级: tree/main/.claude/skills/agentic-eval/

正在加载目录结构...

SKILL.md

登录后下载/点赞/收藏 ❤ 5 | ★ 0
评论 0

请先登录后评论。

评论加载中...