2026西湖龙井茶官网DTC发售:茶农直供,政府溯源防伪到农户家
这是为 杰玛 4 挑战赛:撰写关于杰玛 4 的文章 提交的作品
这是一次小型测试,旨在利用开放模型来揭示不确定性,而非掩盖它。
大多数人工智能演示都从清晰的提示词开始。
而实际工作通常始于杂乱的笔记。
一位利益相关者说数据看起来不对。另一个人说某个字段发生了变化。还有人说源文件已被清理。仪表板负责人不在岗。而经理在领导层会议之前仍需获得最新进展。
这正是我想用杰玛 4 测试的那种情境。
我的工作围绕业务系统、报告、数据质量和流程交接展开,因此这种情况让我感到熟悉。在实际的报告工作中,危险的时刻并不总是仪表板出现故障的时候,而是当所有人都希望在任何人核实源数据之前就得到答案的时候。
因此,我测试了一个实际问题:
杰玛 4 能否做出比总结杂乱笔记更有用的事情?
更具体地说:
它能否将杂乱信息区分为已知事实、假设内容、风险点以及仍需核查的事项?
这正是我所关注的区别。
摘要会压缩杂乱的信息。而审查包则将其分离为事实、假设、风险和下一步核查事项。
测试设置
我故意将测试规模保持得很小。
我使用了谷歌人工智能工作室(Google AI Studio)和 杰玛 4 260亿参数 A4B IT 版本。我两次使用了相同的杂乱笔记,并采用相同的模型设置:温度参数设为 0.25,思考层级设为高,不使用任何工具,也不提供系统指令。
我将系统指令留空,因为我希望提示词本身能够承载所需的行为模式。
这并非模型对比测试,而是提示词模式的对比测试。
我唯一改变的变量是提示词。
该场景虽是合成的,但符合现实情况:一份每周运营报告需在周一上午提交,总计数据看起来低于预期,上周某个字段名称发生了变更,可能已从源文件中移除重复行,且仪表板负责人不在岗。
不涉及私人数据,也不涉及公司数据。这只是那种会在会议前造成压力的典型杂乱报告情境。
以下是为测试而简化的笔记内容:
一份每周运营报告需在周一上午提交。
该报告通常在周日晚上刷新。
上周某个字段名称发生了变更。
一位利益相关者表示总计数据看起来比平时低。
可能已从源文件中移除重复行。
仪表板负责人不在岗。
目前尚无人知道问题是出在源数据、过滤逻辑还是定义变更上。
提示词 1:请求常规摘要
首先,我问道:
为经理总结这些笔记,并解释当前情况。
结果并不算差。
基线运行:使用相同的杰玛 4 模型和相同的笔记,无系统指令。
杰玛 4 为我提供了一份适合向经理汇报的最新进展,并用通俗易懂的语言解释了为何团队应避免在此时给出最终数字
免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。
