克劳德 Opus 4.7：Anthropic 公司智能体可靠性版本发布详解

2026西湖龙井茶官网DTC发售：茶农直供，政府溯源防伪到农户家

核心要点

奥普斯 4.7（Opus 4.7）在所有普遍可用的前沿模型中取得了最强的编程成绩：在 SWE-Bench 验证版基准测试中得分为 87.6%（高于奥普斯 4.6 的 80.8%），在 SWE-Bench 专业版基准测试中得分为 64.3%（高于 53.4%）。在 CursorBench 基准测试中，其得分为 70%，而奥普斯 4.6 为 58%。基准测试分数的跃升是真实存在的，但这并非最令人关注的变化。
此次发布的核心在于智能体可靠性，而不仅仅是能力。安特罗皮克公司（Anthropic）自身的宣传强调，奥普斯 4.7 实现了他们所测得的最高单次工具调用质量比，循环发生率显著降低，且从运行中途的工具故障中恢复的能力更强。对于运行长时间自主任务的工程师而言，这比基准测试分数的差异更为重要。
两个新的学习层面：超高努力程度（xhigh effort level）和任务预算（Task Budgets，公开测试版）。超高努力程度介于高和最大之间，是克劳德代码（Claude Code）中的新默认设置。任务预算允许您限制多步骤运行中的令牌消耗，从而使模型优先处理工作，而不是在第一个子任务上耗尽计算资源。
/ultrareview 是一个专用的代码审查会话——这是一个独立的运行过程，它以审查者的视角重新阅读代码差异，并标记错误和设计问题。专业版和最大版用户可获得三次免费的超级审查机会以进行体验。
无缝迁移：应用程序接口（API）结构相同，每百万令牌的价格与奥普斯 4.6 一样，分别为 5 美元和 25 美元。模型标识符为 claude-opus-4-7，可在克劳德应用程序接口、亚马逊贝德罗克（Amazon Bedrock）、谷歌云顶点人工智能（Google Cloud Vertex AI）以及微软 Foundry 上使用。来自 4.6 版本的提示词通常可以直接使用，尽管更严格的指令遵循可能需要一些重新调整。

安特罗皮克公司于今天发布了克劳德奥普斯 4.7（Claude Opus 4.7）。从表面上看，这是克劳德 4.x 系列中的一个增量点版本更新，定价与奥普斯 4.6 完全相同，并通过相同的应用程序接口表面提供。但通过阅读发布说明、第三方基准测试覆盖范围以及合作伙伴报告，一个不同的故事浮现出来：这不是一个附带可靠性脚注的基准测试版本发布，而是一个附带基准测试脚注的可靠性版本发布。

对于交付生产级人工智能功能的软件工程师——尤其是那些运行编程智能体、代码审查流水线或多步骤自主工作流的人——奥普斯 4.7 中的变化直接对应于那些真正浪费工程时间的故障模式。智能体陷入循环。未能实现的静默错误恢复。在长达六小时的运行中令牌消耗激增。本文将详细介绍新功能、数据实际反映的情况、早期合作伙伴的报告，以及奥普斯 4.7 在您的技术栈中应该和不应该占据的位置。

基准测试概况

奥普斯 4.7 在大多数编程基准测试中领先于公开可用的前沿领域，但这种优势在不同工作负载下并不均匀。以下是安特罗皮克公司和第三方目前报告的数据中最清晰的视图：

基准测试（奥普斯 4.7 -> 奥普斯 4.6 -> 主要竞争对手）：

有两个数字值得特别关注。在 SWE-Bench 专业版基准测试中——这是一个更难、更大、涉及多仓库的版本，追踪的是真实的生产风格问题——奥普斯 4.7 的得分从 53.4% 提升至 64.3%，跃升了约 11 个百分点。视觉敏锐度基准测试的得分从 54.5% 提升至 98.5%，这量化地印证了安特罗皮克公司的另一项视觉主张：奥普斯 4.7 接受长边高达 2,576 像素的图像，分辨率大约是奥普斯 4.6 所能处理图像的三倍。对于生成用户界面模型、阅读密集仪表盘或检查失败

免责声明：本文内容来自互联网，该文观点不代表本站观点。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请到页面底部单击反馈，一经查实，本站将立刻删除。