88% 的人工智能代理失败与模型无关

你不断重写提示词。升级模型。添加更多指令。智能体仍然出错。在经历了数百次失败的追踪记录后，我找到了故障的真正根源。

人工智能领域的每个人都在等待下一个模型的发布。GPT-5 会解决这个问题。Claude 4 会解决这个问题。Gemini Ultra Pro Max 这次肯定能解决这个问题。

三年来，我一直在构建生产级的人工智能智能体。不是周末的业余项目，也不是只在首席执行官观看时才正常的演示程序。而是那些处理真实交易、调用真实应用程序接口（API），并在周日凌晨两点以让你想在领英（LinkedIn）上批量更新简历的方式崩溃的智能体。

而我不断看到同样的模式。一个团队部署了一个智能体。它在预发布环境中表现良好。一旦进入生产环境，就开始出现奇怪的行为。错误的答案。自信的错误答案。那种智能体听起来如此确信，以至于你的支持团队在任何人检查之前就将它转发给了客户。

团队的第一反应是什么？升级模型。重写提示词。添加更多指令。“你是一个乐于助人、准确的助手，在回应之前总是检查数据库，并且从不做出假设……”

两周后，同样的失败。只是措辞不同。

我开始维护一个电子表格。每当智能体在生产环境中失败时，我都会阅读完整的追踪记录。不是输出结果。而是整个链条。用户问了什么。智能体检索了什么。它调用了哪些工具。它在做出决定时实际拥有的上下文是什么。

在分析了几百条追踪记录后，这种模式变得如此明显，以至于我为自己没有早点发现它而感到愚蠢。

鉴于智能体所能看到的信息，模型几乎从未做出过错误的决定。问题在于它能看到什么。

这一认识改变了我构建所有东西的方式。

1. 上下文栈

这是我现在使用的思维模型。我称之为“上下文栈”。每一个人工智能智能体的故障都可以映射到这些层级之一，而这些层级的排序依据是它们实际成为问题的频率与团队归咎于它们的频率之间的对比。

看最后一行。12%。这就是模型本身成为问题根源的频率。每个人都在优化这 12%，却忽略了上面 88% 的部分。

这些不是凭空捏造的数字。它们来自于实际阅读生产系统上的故障追踪记录，并对每一条进行分类。这项工作枯燥乏味，并不光鲜亮丽。但它彻底改变了我对智能体架构的方法。

让我逐一讲解每个层级。

感知是最基础的层级，也是团队最常忽略的层级。它回答一个问题：当智能体做出决定时，它在物理上能否看到所需的信息？

我给你举一个真实的例子。我当时正在开发一个回答公司运营相关问题的智能体。客户问了一个直截了当的问题。智能体给出了一个自信、详细但完全错误的答案。团队的反应是：“模型产生了幻觉。”

我拉

免责声明：本文内容来自互联网，该文观点不代表本站观点。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请到页面底部单击反馈，一经查实，本站将立刻删除。