克劳德 Opus 4.7:Anthropic 公司智能体可靠性版本发布详解

发布日期:2026-05-07 10:36:05   浏览量 :1
发布日期:2026-05-07 10:36:05  
1

2026西湖龙井茶官网DTC发售:茶农直供,政府溯源防伪到农户家 

核心要点

  • 奥普斯 4.7(Opus 4.7)在所有普遍可用的前沿模型中取得了最强的编程成绩:在 SWE-Bench 验证版基准测试中得分为 87.6%(高于奥普斯 4.6 的 80.8%),在 SWE-Bench 专业版基准测试中得分为 64.3%(高于 53.4%)。在 CursorBench 基准测试中,其得分为 70%,而奥普斯 4.6 为 58%。基准测试分数的跃升是真实存在的,但这并非最令人关注的变化。
  • 此次发布的核心在于智能体可靠性,而不仅仅是能力。安特罗皮克公司(Anthropic)自身的宣传强调,奥普斯 4.7 实现了他们所测得的最高单次工具调用质量比,循环发生率显著降低,且从运行中途的工具故障中恢复的能力更强。对于运行长时间自主任务的工程师而言,这比基准测试分数的差异更为重要。
  • 两个新的学习层面:超高努力程度(xhigh effort level)和任务预算(Task Budgets,公开测试版)。超高努力程度介于高和最大之间,是克劳德代码(Claude Code)中的新默认设置。任务预算允许您限制多步骤运行中的令牌消耗,从而使模型优先处理工作,而不是在第一个子任务上耗尽计算资源。
  • /ultrareview 是一个专用的代码审查会话——这是一个独立的运行过程,它以审查者的视角重新阅读代码差异,并标记错误和设计问题。专业版和最大版用户可获得三次免费的超级审查机会以进行体验。
  • 无缝迁移:应用程序接口(API)结构相同,每百万令牌的价格与奥普斯 4.6 一样,分别为 5 美元和 25 美元。模型标识符为 claude-opus-4-7,可在克劳德应用程序接口、亚马逊贝德罗克(Amazon Bedrock)、谷歌云顶点人工智能(Google Cloud Vertex AI)以及微软 Foundry 上使用。来自 4.6 版本的提示词通常可以直接使用,尽管更严格的指令遵循可能需要一些重新调整。

安特罗皮克公司于今天发布了克劳德奥普斯 4.7(Claude Opus 4.7)。从表面上看,这是克劳德 4.x 系列中的一个增量点版本更新,定价与奥普斯 4.6 完全相同,并通过相同的应用程序接口表面提供。但通过阅读发布说明、第三方基准测试覆盖范围以及合作伙伴报告,一个不同的故事浮现出来:这不是一个附带可靠性脚注的基准测试版本发布,而是一个附带基准测试脚注的可靠性版本发布。

对于交付生产级人工智能功能的软件工程师——尤其是那些运行编程智能体、代码审查流水线或多步骤自主工作流的人——奥普斯 4.7 中的变化直接对应于那些真正浪费工程时间的故障模式。智能体陷入循环。未能实现的静默错误恢复。在长达六小时的运行中令牌消耗激增。本文将详细介绍新功能、数据实际反映的情况、早期合作伙伴的报告,以及奥普斯 4.7 在您的技术栈中应该和不应该占据的位置。

基准测试概况

奥普斯 4.7 在大多数编程基准测试中领先于公开可用的前沿领域,但这种优势在不同工作负载下并不均匀。以下是安特罗皮克公司和第三方目前报告的数据中最清晰的视图:

基准测试(奥普斯 4.7 -> 奥普斯 4.6 -> 主要竞争对手):

有两个数字值得特别关注。在 SWE-Bench 专业版基准测试中——这是一个更难、更大、涉及多仓库的版本,追踪的是真实的生产风格问题——奥普斯 4.7 的得分从 53.4% 提升至 64.3%,跃升了约 11 个百分点。视觉敏锐度基准测试的得分从 54.5% 提升至 98.5%,这量化地印证了安特罗皮克公司的另一项视觉主张:奥普斯 4.7 接受长边高达 2,576 像素的图像,分辨率大约是奥普斯 4.6 所能处理图像的三倍。对于生成用户界面模型、阅读密集仪表盘或检查失败

免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。

关于我们
热门推荐
合作伙伴
免责声明:本站部分资讯来源于网络,如有侵权请及时联系客服,我们将尽快处理
支持 反馈 订阅 数据
回到顶部