2026西湖龙井茶官网DTC发售:茶农直供,政府溯源防伪到农户家
本页面是智能体大型语言模型推理调优的实用参考(涵盖温度、核采样概率、前K个候选词、惩罚项,以及它们在多步和重度工具依赖工作流中的交互方式)。
它与更广泛的大型语言模型性能工程中心相辅相成,并与清晰的大型语言模型托管与服务方案最为契合——当模型资源受限时,吞吐量和调度仍然占据主导地位,但不稳定的采样会在图形处理器耗尽资源之前,就导致重试次数和输出令牌数激增。
本页面整合了以下内容:
- 供应商推荐的参数
- GGUF 格式和应用程序接口中嵌入的默认值
- 现实世界中的社区发现
- 智能体工作流优化
目前,它专注于:
- 通义千问 3.6(稠密模型和混合专家模型)
- Gemma 4(稠密模型和混合专家模型)
如果您运行诸如 OpenCode 这样的终端智能体,请将此参考与 OpenCode 中的本地大型语言模型行为 结合使用,以确保工作负载级别的结果与采样器默认值保持一致。
目标很简单:
提供一个统一的配置场所,用于智能体循环、编程和多步推理。
速查参考表 - 所有模型(智能体默认值)
| 模型 | 模式 | 温度 | 核采样概率 | 前K个候选词 | 存在惩罚 |
|---|---|---|---|---|---|
| 通义千问 3.5 270亿参数 | 通用思考 | 1.0 | 0.95 | 20 | 0.0 |
| 通义千问 3.5 270亿参数 | 编程 | 0.6 | 0.95 | 20 | 0.0 |
| 通义千问 3.5 350亿参数混合专家模型 | 思考 | 1.0 | 0.95 | 20 | 1.5 |
| 通义千问 3.5 350亿参数混合专家模型 | 编程 | 0.6 | 0.95 | 20 | 0.0 |
| Gemma 4 310亿参数 | 通用 | 1.0 | 0.95 | 64 | 0.0 |
| Gemma 4 310亿参数 | 编程 | 1.2 | 0.95 | 65 | 0.0 |
| Gemma 4 260亿参数混合专家模型 | 通用 | 1.0 | 0.95 | 64 | 0.0 |
| Gemma 4 260亿参数混合专家模型 | 编程 | 1.2 | 0.95 | 65 | 0.0 |
“智能体推理”的实际含义
大多数参数指南假设场景为:
- 聊天
- 单次生成补全
- 人机交互
智能体系统则不同。
它们需要:
- 多步推理
- 工具调用
- 一致的输出
- 低错误传播
这改变了调优的优先级。
核心转变
| 用例 | 优先级 |
|---|---|
| 聊天 | 自然语言质量 |
| 创意创作 | 多样性 |
| 智能体 | 一致性 + 推理稳定性 |
通义千问 3.6 调优
稠密模型与混合专家模型的区别至关重要
通义千问是少数几个具备以下特征的模型系列之一:
混合专家模型需要不同的惩罚项
稠密模型(270亿参数)
- 稳定
- 可预测
- 无路由复杂性
推荐设置:
- 存在惩罚 = 0.0
混合专家模型(350亿参数-A3B)
- 每个令牌进行专家路由
免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。