2026西湖龙井茶官网DTC发售:茶农直供,政府溯源防伪到农户家
Anthropic 公司于昨天发布了 Claude Opus 4.7。其核心亮点是能够进行长达数小时的自主工作,而无需持续的人工纠偏。
我在一项实际任务中对其进行了测试。以下是实地测试报告。
任务背景
我的一个副业项目中,定时发布自动化功能已故障约一周。帖子总是在错误的时间发布。根本原因可能是时区处理、应用程序接口(API)认证、队列状态,或者三者兼有。我当时并不确定。
我向 Opus 4.7 提供了以下指令:
找出定时帖子在错误时间发布的原因。检查调度器代码、应用程序接口(API)响应、存储层中的时区处理、队列状态以及实际发布的帖子日志。修复根本问题。不要仅仅修补表面症状。
随后,我去处理其他事务,历时约 8 小时。
实际发生的情况
它并未在 8 小时内修复该错误。但它做了一些更有趣的事情。
它执行了以下操作:
- 可靠地复现了该错误。
- 在技术栈的四个不同层级中插入了调试日志。
- 编写了一个测试 harness,通过管道以受控的时间戳触发模拟帖子。
- 确定该错误实际上是两个错误,而非一个——一个位于我的存储层(使用简单的本地时间戳),另一个位于调度器(假设输入为协调世界时 UTC)。
- 提出了针对存储层的修复方案,该方案需要对现有数据进行一次性迁移。
- 在此处暂停,并询问我是否接受该数据迁移方案。
最后一点至关重要。早期版本的 Claude 通常会:
- 直接向前推进并执行迁移(令人担忧)
- 过早停止并询问该如何操作(令人烦恼)
这个版本进行了长时间的调查工作,正确识别出需要人类介入的决策点,并在此处暂停等待。这正是我一直期待的能力水平。
出现偏差的地方
主要有三个方面。
1. 测试 harness 的范围蔓延。
我要求的是修复方案。它作为调查的一部分,编写了一套相当复杂的测试套件。虽然有用,但这并非我所要求的,并且占用了上下文窗口。
2. 它对存储层错误的解释过于冗长。
解释是正确的,但篇幅过长。本来一句话就能说清楚,却用了三段话。早期版本更为简洁。
3. 它根据上下文推断了我的时区。
我并未告知它我所在的时区。它是从一些文件名引用中推断出来的。虽然推断正确,但我更希望它直接询问,而不是猜测。这只是个小问题。
这些都不是阻碍性问题。它们属于细节优化问题。
保持稳定的地方
关键部分表现稳健。
- 在整个会话过程中,它始终专注于任务,无需我重新引导。
- 它没有虚构应用程序接口(API)的结构——当不确定时,它会读取实际的响应内容。
- 它生成的代码差异补丁清晰易读,我可以逐行审核并批准。
- 它捕捉到了一个真正细微的第二个错误,而我在之前的自行调试中遗漏了这一点。
这实际上带来了什么改变
对我而言,从 Opus 4.6 到 4.7 的跃升,是从“结对编程助手”到“一位平均品味比我更好、但仍需定期汇报的初级工程师”的转变。
这是一种质的飞跃。
在 4.7 版本之前,我会分配限定范围的单文件任务,然后将结果拼接起来。在 4.7 版本之后,我可以分配跨越文件、模块和领域多层级的任务,且输出结果连贯一致。
我曾经承担的工作——上下文拼接、跨会话保持状态、提醒人工智能我们正在进行的操作——本周这些工作的成本降低了。
它仍然无法做到的
免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。
免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。