人工智能不擅长提出异议。我花了数周时间试图解决这个问题。

几个月前，我开始开发一个工具，用于生成两个品牌之间的辩论视频。这个想法很简单：选择两个竞争对手，选择一个话题，然后生成一段短视频，让它们真正展开交锋。

第一个版本糟糕透顶。但并非你想象的那种糟糕。

声音听起来没问题。视频质量也没问题。问题在于，两个人工智能拒绝相互反驳。可口可乐提出一个观点，百事可乐则会回应说：“这是一个很棒的视角，虽然我理解你的出发点，但我认为我们提供了一个不同但同样合理的观点。”

两个品牌。一场辩论。零冲突。

我构建出了世界上最有礼貌的争吵生成器。

为什么人工智能不擅长争论

现代语言模型经过大量训练，变得非常顺从。人类反馈强化学习（RLHF）——这一教导它们变得乐于助人的过程——也教导它们去化解冲突。当你要求人工智能采取某种立场时，它会含糊其辞。当你要求两个人工智能相互反驳时，它们会寻找共同点。训练的目标是打造一个有用的助手，而不是一个引人注目的对手。

你在聊天生成预训练变换（ChatGPT）、克劳德（Claude）、杰米尼（Gemini）或任何其它模型中都能看到这种现象。要求它们相互争论，不出两个回合，它们就开始撰写联合声明了。

这对助手来说是一个功能特性。但对娱乐内容来说，这是一个缺陷。

我的第一直觉是进行提示词工程。告诉模型：“你要具有攻击性。你绝不同意对方。你要攻击对方的观点。”

这大概只能维持一个回合的有效效果。随后，模型就会漂移回共识状态。训练的影响比指令更强。最终，你会得到一个开场极具攻击性，随后却悄悄缓和局势的模型。只要观看足够长时间的人工智能辩论，你就会看到这一点——第一句话尖锐犀利，第五句话就变成了“我们其实说的是同一件事”。

第二个直觉是让情况变得更糟：“你讨厌对方。你认为他们在根本上是错误的。” 这确实会在第一句话中产生真正具有冒犯性的输出，但随后模型会更强烈地修正路线，转向示好和解的姿态。就好像它感到内疚一样。

第三个直觉，也是许多人尝试的方法，是提高温度参数，希望随机性能产生冲突。但实际上，它产生的是胡言乱语。随机并不等于分歧。随机意味着缺乏连贯性。

最终奏效的方法是架构层面的，而非提示词层面的。

我没有让一个模型同时扮演“双方”并让它生成辩论，而是将两位辩手分割到完全独立的上下文中。任何一方都看不到对方的指令。每一方都有自己的人设、先验知识和目标，而且——关键在于——永远看不到“辩论框架”。就每一方所知，它们并不处于辩论之中。它们只是从特定的世界观出发回答问题。

然后，我在外部协调发言轮次。甲方发言。乙方收到甲方的转录文本，并将其视为竞争对手发表的错误言论，并被要求以角色身份进行回应。不是“与他们辩论”，而是“回应竞争对手的错误言论”。

这种框架设定——“对方是错误的，这是他们说的话，轮到你了”——实现了“请表示反对”所无法达到的效果。它规避了顺从性训练，因为模型并未被要求去争论。它被要求捍卫自己的立场以抵御攻击。这对语言模型来说是一种自然得多的姿态。

分歧变得真实起来，因为双方真的不知道对方作为谈判伙伴的存在。它们认为自己只是在独白。

即使采用了分割上下文的方法，另一个问题也随之浮现：双方的听起来一模一样。

两个人工智能在争论时，即使是激烈地争论，也倾向于使用相同的句子结构、相同的修辞

免责声明：本文内容来自互联网，该文观点不代表本站观点。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请到页面底部单击反馈，一经查实，本站将立刻删除。