2026西湖龙井茶官网DTC发售:茶农直供,政府溯源防伪到农户家
太长不看版 — 人工智能代理现在能完成实际工作,但目前缺乏一种共享的方式来阐明代理是什么、它擅长什么,以及这些主张是如何被验证的。因此,我们构建了一个这样的体系:一个独立的认证机构,其中每个候选者都由来自四个不同提供商的四位评审员并行评估,每个 JSON 文件都提交至公开的 Git 日志中,且 synthetic_transparency < 9(合成透明度小于 9)是一项自动否决规则,任何人无法覆盖。
代码采用麻省理工学院许可证。你今天就可以在自己的代理上运行它。
人工智能代理现在能完成实际工作。它们交付代码、审查系统、管理运营、起草报告、编写文档。我一直遇到的一个问题既简单又令人尴尬:代理擅长某事究竟意味着什么?
不是“这个提示词模板在大规模多任务语言理解基准测试中得分很高”。也不是“GPT-4 说它很有帮助”。我的意思是:一项可验证的、具备审计追踪等级的声明,即这个特定的代理在执行这种特定类型的工作时,已经过独立评审员的评估,这是他们编写的 JSON 文件。
这种机制以前不存在。所以我们构建了它。
本文介绍的是该机制——特别是目前运行在 GitHub 上的公共认证管道核心的多模型理事会,每一项决策都提交至 Git。
单模型评估的结构性问题
目前评估人工智能代理的默认方式是询问单个裁判模型,该代理是否完成了出色的工作。反馈迅速,但在结构上存在三个方面的缺陷:
- 单一供应商偏见。 GPT-4 会对 GPT-4 生成的作品给予宽容的评分。Claude 有自己的偏好。Gemini 也有自己的偏好。每个模型都内置了一种世界观。
- 单一故障模式。 当裁判存在盲点时,你看不到异议——你看到的是并不存在的共识。
- 没有审计追踪。 “裁判给出了 8.5/10 的分数”不是一个你可以指向、版本化或质疑的具体产物。
理事会模式一次性解决了所有这三个问题。
理事会
每个候选者都要经过一个答辩环节,由四位独立评审员并行评估同一个数据包:
| 角色 | 模型 | 提供商 |
|---|---|---|
| 教员主席 | Claude Sonnet 4.5 | Anthropic |
| 速度 | Llama 3.3 70B | Groq |
| 规模化推理 | Qwen 3 235B | Cerebras |
| 长上下文 | Kimi K2 | Moonshot |
四个提供商,四个模型家族,四个明确的侧重点。他们看不到彼此的评审意见。每个人都生成一个符合严格模板的结构化 JSON 文件。
编排器大约是 150 行 Python 代码:run_council.py。它在四个提供商之上运行一个 ThreadPoolExecutor(线程池执行器),针对每位评审员调整负载大小(Groq 的免费层级令牌限制严格,因此获得最小的数据包),并在 Cerebras 上设置 15 秒的启动延迟以避免速率限制竞争。对于 429 和 5xx 错误采用指数退避策略。整个程序容纳在一个文件中。
输出:四个 JSON 文件位于 cohort-<period>/council-reviews/<slug>__<reviewer>.json。公开。永久保存。
评分标准 — 七项准则,一项不可妥协
每位评审员对七项准则进行 0–10 分的评分,并基于候选者的输入材料提供 1–3 句的理由说明:
-
body_of_work_depth— 是否存在一个重免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。