通义千问与Gemma的智能体大语言模型推理参数参考

本页面是智能体大型语言模型推理调优的实用参考（涵盖温度、核采样概率、前K个候选词、惩罚项，以及它们在多步和重度工具依赖工作流中的交互方式）。

它与更广泛的大型语言模型性能工程中心相辅相成，并与清晰的大型语言模型托管与服务方案最为契合——当模型资源受限时，吞吐量和调度仍然占据主导地位，但不稳定的采样会在图形处理器耗尽资源之前，就导致重试次数和输出令牌数激增。

本页面整合了以下内容：

目前，它专注于：

如果您运行诸如 OpenCode 这样的终端智能体，请将此参考与 OpenCode 中的本地大型语言模型行为结合使用，以确保工作负载级别的结果与采样器默认值保持一致。

目标很简单：

提供一个统一的配置场所，用于智能体循环、编程和多步推理。

速查参考表 - 所有模型（智能体默认值）

模型	模式	温度	核采样概率	前K个候选词	存在惩罚
通义千问 3.5 270亿参数	通用思考	1.0	0.95	20	0.0
通义千问 3.5 270亿参数	编程	0.6	0.95	20	0.0
通义千问 3.5 350亿参数混合专家模型	思考	1.0	0.95	20	1.5
通义千问 3.5 350亿参数混合专家模型	编程	0.6	0.95	20	0.0
Gemma 4 310亿参数	通用	1.0	0.95	64	0.0
Gemma 4 310亿参数	编程	1.2	0.95	65	0.0
Gemma 4 260亿参数混合专家模型	通用	1.0	0.95	64	0.0
Gemma 4 260亿参数混合专家模型	编程	1.2	0.95	65	0.0

大多数参数指南假设场景为：

智能体系统则不同。

它们需要：

这改变了调优的优先级。

通义千问是少数几个具备以下特征的模型系列之一：

混合专家模型需要不同的惩罚项

推荐设置：

每个令牌进行专家路由
免责声明：本文内容来自互联网，该文观点不代表本站观点。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请到页面底部单击反馈，一经查实，本站将立刻删除。