从追踪到训练:智能体运行如何转化为学习数据
每一次智能体运行都是一个数据点。大多数框架将其丢弃。
WasmAgent 保留它——由合规引擎评估,按结果排名,并导出为类型化的 ComplianceEvalRecord(合规评估记录),可直接用于监督微调或有偏好优化训练。无需人工标注。
三种修复模式
import { ComplianceRun } from "@wasmagent/compliance";
const run = new ComplianceRun({
mode: "full_pcl", // "direct" | "prompt_retry" | "full_pcl"
taskSpec: {
instruction: "Write a summary in exactly 3 bullet points.",
constraints: [{ type: "format", rule: "bullet_count", value: 3 }],
},
});
const result = await run.execute(agent, input);
// result.complianceEvalRecord → typed, versioned, schema-validated
direct(直接模式)——单次执行,记录通过/失败。
prompt_retry(提示重试模式)——使用重述的提示词重试一次。
full_pcl(完整过程闭环模式)——完整修复循环:执行 → 评估 → 修补/重新生成 → 重新评估 → 记录整个追踪轨迹。
数据揭示的结果
IFEval × Qwen2.5-1.5B-Q4(3 个随机种子 × 50 个样本):
| 模式 | 通过率 | 标准差 |
|---|---|---|
| prompt_retry | 46.0% | ±2.0pp |
| full_pcl | 54.7% | ±1.2pp |
提升 8.7 个百分点。方差降低(±2.0 → ±1.2)对于生产环境的可靠性至关重要。
复现方法:bun packages/compliance/benchmarks/ifeval/run.ts --limit=50 --seed=42
修复追踪轨迹即训练数据
当 full_pcl 修复失败的输出时,RepairPlanner(修复规划器)会记录每次尝试:
// Inside ComplianceEvalRecord
attempts: [
{ strategy:免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。