agentic-eval

分类: 工具与效率 | 上传者: vchelaru | 下载: 0 | 版本: v1.0（最新）

用于评估和改进人工智能代理输出的模式和技术。在以下情况下使用此技能： - 实施自我批评和反思循环 - 为质量关键的生成构建评估器优化器管道 - 创建测试驱动的代码细化工作流程 - 设计基于准则或 LLM 作为法官的评估系统 - 向代理输出（代码、报告、分析）添加迭代改进 - 测量和提高代理响应质量 --- # 代理评估模式通过迭代评估和细化进行自我改进的模式。 ## 概述评估模式使代理能够评估和改进自己的输出，从单次生成转向迭代细化循环。 ``` 生成 → 评估 → 批评 → 完善 → 输出 ↑ │ └──────────────────────────┘ ``` ## 何时使用 - **质量关键的生成**：需要高精度的代码、报告、分析 - **具有明确评估标准的任务**：存在定义的成功指标 - **需要特定标准的内容**：风格指南、合规性、格式化 --- ## 模式 1：基本反射代理通过以下方式评估和改进其自身的输出自我批评。 ```python def Reflect_and_refine(task: str, criteria: list[str], max_iterations: int = 3) -> str: """使用反射循环生成。""" output = llm(f"完成此任务：\n{task}") for i in range(max_iterations): # 自我批判 critique = llm(f"""

更新日志: Source: GitHub https://github.com/vchelaru/FlatRedBall2

agentic-eval

目录结构

SKILL.md

agentic-eval

目录结构

SKILL.md

举报内容

提示