2026西湖龙井茶官网DTC发售:茶农直供,政府溯源防伪到农户家
长时间运行的代理往往在后半段失败。
第一步通常没问题。修复持续集成失败、打开应用、点击按钮、搜索关键词。模型能够生成合理的首个动作。问题大约从第十步开始:已经发生了什么、任务卡在哪里、原始边界是什么,以及任务何时可以停止。这些细节会从上下文中滑落。
Codex 命令行界面 0.128.0 版本增加了 /goal 命令。发布说明描述了一种持久化的目标工作流:应用服务器应用程序接口、模型工具、运行时续接,以及用于创建、暂停、恢复和清除的文本用户界面控件。西蒙·威利森将其比作开放人工智能版本的拉尔夫循环:为 Codex 设定一个目标,然后让它持续执行、检查并纠正,直到目标完成或预算耗尽。
在长时间运行任务的背景下,这一变化关乎目标的存放位置。它从单个提示中的文本,转变为一种可以恢复、暂停、清除并在稍后再次引用的状态。
为什么编码代理需要目标
以持续集成失败为例。直接的失败可能只是一个测试用例出错。代理修改测试,接着修改实现,然后调整类型,因为代码现在看起来有些别扭。每一步都有理由,但最终的差异比原始问题大得多。
在这里,代码生成很少是难点。运行过程没有附着稳定的约束条件。原始目标可能很小,例如:
/goal 修复当前失败的测试,保持差异尽可能小,最后运行完 npm test
或者:
/goal 处理这个拉取请求的审查评论,不修改无关文件,最后给出改动摘要
这类目标承载了目标、边界和验收条件。它告诉代理要去哪里、不要触碰什么,以及何时停止。
如果没有这种状态,代理很容易被当前的错误牵着走。某个类型看起来别扭,它就改变类型;某个测试难以编写,它就修改测试;结构感觉混乱,它就重构。每个局部动作看似合理,而整个任务却在漂移。
在手机上,难点在于屏幕状态
OpenGUI 致力于另一种类型的长时间运行任务:让人工智能操作真实的安卓手机。
仓库地址:https://github.com/Core-Mate/open-gui
在代码库中,状态仍然可以落在文件、测试和差异中。而在手机上,状态是实时的屏幕。
例如,让手机打开 X 应用,搜索关于移动人工智能代理的讨论,收集要点,并总结人们关心的内容。作为一句话,这看起来很简单。但在手机上,它变成了一系列状态检查:应用是否已打开、这是否是主页、搜索框是否获得焦点、结果是否加载完毕、中间是否出现了登录提示、权限提示或关注推荐。
截图、点击、截图的循环只能承载短期任务。如果屏幕没有变化,系统必须判断是点击未命中、网络缓慢、页面正在加载,还是动作没有可见反馈。如果页面跳转到其他地方,它还必须决定是返回、重试,还是从新页面继续。
因此,移动端的目标必须回答几个具体问题:任务处于哪一步、当前屏幕是否支持下一步、失败后从哪里恢复,以及运行何时可以结束。
OpenGUI 将目标转化为状态流
我运行了 OpenGUI 并通读了源代码。它连接了后端图、设备连接和安卓端的动作执行
免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。