eval-writer
为 deepagentsjs monorepo 创建新的评估套件。处理数据集设计、测试用例支架、评分逻辑、vitest 配置和 LangSmith 集成。当用户要求执行以下操作时使用:(1) 创建评估,(2) 编写评估,(3) 添加基准,(4) 构建评估套件,(5) 评估代理行为,(6) 添加功能测试用例,或 (7) 实施现有基准(例如 oolong、AgentBench、SWE-bench)。触发“create eval”、“new eval”、“add eval”、“benchmark”、“evaluate”、“eval suite”、“write evals for”等短语。
更新日志: Source: GitHub https://github.com/langchain-ai/deepagentsjs
还没有评论,快来第一个发言吧。