人工智能不擅长提出异议。我花了数周时间试图解决这个问题。

发布日期:2026-04-19 09:22:13   浏览量 :4
发布日期:2026-04-19 09:22:13  
4

2026西湖龙井茶官网DTC发售:茶农直供,政府溯源防伪到农户家 

几个月前,我开始开发一个工具,用于生成两个品牌之间的辩论视频。这个想法很简单:选择两个竞争对手,选择一个话题,然后生成一段短视频,让它们真正展开交锋。

第一个版本糟糕透顶。但并非你想象的那种糟糕。

声音听起来没问题。视频质量也没问题。问题在于,两个人工智能拒绝相互反驳。可口可乐提出一个观点,百事可乐则会回应说:“这是一个很棒的视角,虽然我理解你的出发点,但我认为我们提供了一个不同但同样合理的观点。”

两个品牌。一场辩论。零冲突。

我构建出了世界上最有礼貌的争吵生成器。

为什么人工智能不擅长争论

现代语言模型经过大量训练,变得非常顺从。人类反馈强化学习(RLHF)——这一教导它们变得乐于助人的过程——也教导它们去化解冲突。当你要求人工智能采取某种立场时,它会含糊其辞。当你要求两个人工智能相互反驳时,它们会寻找共同点。训练的目标是打造一个有用的助手,而不是一个引人注目的对手。

你在聊天生成预训练变换(ChatGPT)、克劳德(Claude)、杰米尼(Gemini)或任何其它模型中都能看到这种现象。要求它们相互争论,不出两个回合,它们就开始撰写联合声明了。

这对助手来说是一个功能特性。但对娱乐内容来说,这是一个缺陷。

什么方法行不通

我的第一直觉是进行提示词工程。告诉模型:“你要具有攻击性。你绝不同意对方。你要攻击对方的观点。”

这大概只能维持一个回合的有效效果。随后,模型就会漂移回共识状态。训练的影响比指令更强。最终,你会得到一个开场极具攻击性,随后却悄悄缓和局势的模型。只要观看足够长时间的人工智能辩论,你就会看到这一点——第一句话尖锐犀利,第五句话就变成了“我们其实说的是同一件事”。

第二个直觉是让情况变得更糟:“你讨厌对方。你认为他们在根本上是错误的。” 这确实会在第一句话中产生真正具有冒犯性的输出,但随后模型会更强烈地修正路线,转向示好和解的姿态。就好像它感到内疚一样。

第三个直觉,也是许多人尝试的方法,是提高温度参数,希望随机性能产生冲突。但实际上,它产生的是胡言乱语。随机并不等于分歧。随机意味着缺乏连贯性。

什么方法行之有效

最终奏效的方法是架构层面的,而非提示词层面的。

我没有让一个模型同时扮演“双方”并让它生成辩论,而是将两位辩手分割到完全独立的上下文中。任何一方都看不到对方的指令。每一方都有自己的人设、先验知识和目标,而且——关键在于——永远看不到“辩论框架”。就每一方所知,它们并不处于辩论之中。它们只是从特定的世界观出发回答问题。

然后,我在外部协调发言轮次。甲方发言。乙方收到甲方的转录文本,并将其视为竞争对手发表的错误言论,并被要求以角色身份进行回应。不是“与他们辩论”,而是“回应竞争对手的错误言论”。

这种框架设定——“对方是错误的,这是他们说的话,轮到你了”——实现了“请表示反对”所无法达到的效果。它规避了顺从性训练,因为模型并未被要求去争论。它被要求捍卫自己的立场以抵御攻击。这对语言模型来说是一种自然得多的姿态。

分歧变得真实起来,因为双方真的不知道对方作为谈判伙伴的存在。它们认为自己只是在独白。

人设问题

即使采用了分割上下文的方法,另一个问题也随之浮现:双方的听起来一模一样。

两个人工智能在争论时,即使是激烈地争论,也倾向于使用相同的句子结构、相同的修辞

免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。

关于我们
热门推荐
合作伙伴
免责声明:本站部分资讯来源于网络,如有侵权请及时联系客服,我们将尽快处理
支持 反馈 订阅 数据
回到顶部