别再让 Gemma 4 只做摘要了

这是一次小型测试，旨在利用开放模型来揭示不确定性，而非掩盖它。

大多数人工智能演示都从清晰的提示词开始。

而实际工作通常始于杂乱的笔记。

一位利益相关者说数据看起来不对。另一个人说某个字段发生了变化。还有人说源文件已被清理。仪表板负责人不在岗。而经理在领导层会议之前仍需获得最新进展。

这正是我想用杰玛 4 测试的那种情境。

我的工作围绕业务系统、报告、数据质量和流程交接展开，因此这种情况让我感到熟悉。在实际的报告工作中，危险的时刻并不总是仪表板出现故障的时候，而是当所有人都希望在任何人核实源数据之前就得到答案的时候。

因此，我测试了一个实际问题：

杰玛 4 能否做出比总结杂乱笔记更有用的事情？

更具体地说：

它能否将杂乱信息区分为已知事实、假设内容、风险点以及仍需核查的事项？

这正是我所关注的区别。

摘要会压缩杂乱的信息。而审查包则将其分离为事实、假设、风险和下一步核查事项。

测试设置

我故意将测试规模保持得很小。

我使用了谷歌人工智能工作室（Google AI Studio）和 杰玛 4 260亿参数 A4B IT 版本。我两次使用了相同的杂乱笔记，并采用相同的模型设置：温度参数设为 0.25，思考层级设为高，不使用任何工具，也不提供系统指令。

我将系统指令留空，因为我希望提示词本身能够承载所需的行为模式。

这并非模型对比测试，而是提示词模式的对比测试。

我唯一改变的变量是提示词。

该场景虽是合成的，但符合现实情况：一份每周运营报告需在周一上午提交，总计数据看起来低于预期，上周某个字段名称发生了变更，可能已从源文件中移除重复行，且仪表板负责人不在岗。

不涉及私人数据，也不涉及公司数据。这只是那种会在会议前造成压力的典型杂乱报告情境。

以下是为测试而简化的笔记内容：

一份每周运营报告需在周一上午提交。

该报告通常在周日晚上刷新。

上周某个字段名称发生了变更。

一位利益相关者表示总计数据看起来比平时低。

可能已从源文件中移除重复行。

仪表板负责人不在岗。

目前尚无人知道问题是出在源数据、过滤逻辑还是定义变更上。

首先，我问道：

为经理总结这些笔记，并解释当前情况。

结果并不算差。

基线运行：使用相同的杰玛 4 模型和相同的笔记，无系统指令。

杰玛 4 为我提供了一份适合向经理汇报的最新进展，并用通俗易懂的语言解释了为何团队应避免在此时给出最终数字

免责声明：本文内容来自互联网，该文观点不代表本站观点。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请到页面底部单击反馈，一经查实，本站将立刻删除。