你的智能体并未崩溃,而是发生了漂移:检测自主系统中的缓慢衰退

发布日期:2026-06-20 10:02:04   浏览量 :2
发布日期:2026-06-20 10:02:04  
2

有一种特定类型的事件,任何警报都不会触发,而这也是我最不信任的一种情况。系统没有崩溃。没有异常,没有 500 错误,也没有失败的健康检查。智能体每天运行,每次都返回答案,并且在你拥有的每个仪表板上都保持绿色正常状态。然而,在六周的时间里,它的表现明显变差——而你是从客户那里得知这一情况的,而不是通过监控系统。

这就是漂移,我认为这是行业最缺乏准备的故障模式。我们已经擅长捕捉悬崖式故障:智能体抛出异常,工具返回 500 错误,JSON 无法解析,持续集成流程变红。但我们仍然极不擅长捕捉斜坡式衰退:回答质量每周流失百分之二,而所有系统都报告完美健康。崩溃是喧闹且自我宣告的。漂移在构造上就是静默的,而这种静默正是它得以胜出的原因。

以下是我将捍卫的观点:漂移不是一个离群值问题,而是一个基线问题。你无法通过查看任何单次运行来检测衰退,因为单次运行看起来完全正常。漂移仅作为随时间变化的分布改变而存在——因此,如果你没有持续对生产环境进行评分并追踪分数趋势,你在结构上就无法看到它。这不是运气不好,而是能力缺失。

为什么你的代码未变,但行为却变了

漂移之所以如此令人困惑,是因为它违背了我们最深层的直觉:如果代码没有改变,行为就不会改变。对于智能体而言,这完全是错误的。即使你的 Git 历史记录完全静止,你的智能体也在衰退:

  • 模型在你脚下变动。你锁定了 gpt-4o,但锁定的模型名称并不等于锁定的模型——提供商会在稳定的字符串背后滚动检查点并悄悄重新调整。你的提示词在字节层面上完全相同,但输出结果却发生了偏移。
  • 世界在你的提示词下变动。你的少样本示例是基于三月的现实编写的。现在是九月。用户询问的是在你冻结提示词时不存在的产品和边缘案例,智能体进行了即兴发挥——效果更差,但表达流畅。
  • 你的依赖项和输入在变动。检索索引被重新嵌入;某个工具重命名了一个字段;你的用户群扩展到了新的语言区域。智能体在你测试过的输入上从未出错——问题在于,它实际服务的数据和流量已经偏离了那些测试用例,而它仍在继续运行,并自信地引用略微错误的结果。

这些情况都不会出现在代码差异对比中。没有任何情况会抛出异常。每一种情况都在降低用户的实际体验。这就是为什么“如果出问题了我们会注意到”是一种幻想——代价最高的智能体回归测试根本不会破坏任何东西。

基线是衡量漂移的唯一参照

要检测漂移,你需要两样东西:一个基线——即在可信的时间窗口内“正常”得分的情况——以及一个连续信号,即以相同方式对实时流量计算的相同分数。漂移是两者之间的差距,通过统计方法而非肉眼观察来衡量。

naive(朴素)的版本是单一阈值:“如果质量降至 0.8 以下则发出警报。”这能捕捉到悬崖式故障,但会错过斜坡式衰退。一个在五周内从 0.91 缓慢降至 0.82 的分数永远不会触发绝对下限警报,但它已经损失了近十分之一的质量。你寻找的不是低分,而是变动——这是一个不同的统计学问题,因此需要基线。

这正是评估与可观测性不再成为独立关注点,而合并为一个工作流的地方——因为你既需要一个评分的工具,也需要一个记住路径的工具。我运行 agent-eval 来对智能体的输出进行评分和门禁控制:确定性检查

免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。

关于我们
热门推荐
合作伙伴
免责声明:本站部分资讯来源于网络,如有侵权请及时联系客服,我们将尽快处理
Copyright © 2025-2027 ToB产业网址导航 公安备案 浙公网安备33010602013138号 浙ICP备16025413号-9
支持 反馈 订阅 数据