Harness 马具/驾驭系统

发布时间：2026/6/10 13:18:21

在 AI Agent / LLM 领域看到的Agent Harness执行套件 / 驾驭层是借用了软件测试中test harness的概念专指包裹在大模型外围、让模型真正变成可用 Agent 的全部工程基础设施。核心理解Agent Model HarnessModelLLM 大脑/发动机负责推理、生成文本本身无记忆、无工具、不会循环执行Harness 马具/驾驭系统负责把模型的思考变成行动——管理上下文、调工具、跑 ReAct 循环、处理错误重试、设安全护栏等类比模型是野马Harness 是缰绳马鞍骑手——不提供奔跑的动力但决定往哪跑、何时停、不出事Harness 通常包含什么组件说明编排循环(Orchestration Loop)Thought→Action→ObservationReAct决定何时继续/停止工具调用路由注册工具 schema、解析模型 tool_call、沙箱执行、捕获结果上下文/记忆管理短期对话历史长期持久化记忆上下文压缩/裁剪Prompt 构建系统提示词、工具描述注入、格式约束错误处理重试解析失败回退、超时、指数退避重试安全护栏(Guardrails)输入/输出过滤、高危工具人工审批(HITL)观测日志tracing、评分、用于 debug 和 eval两种常见语境Runtime Harness运行层——上面说的 Agent 执行框架LangChain/LangGraph、CrewAI、AutoGen 的本质都是 harness 实现Claude Code 官方自称 the agentic harness around ClaudeEvaluation Harness评测框架——SWE-bench、AgentBench、GAIA 中用来跑 Agent、收集轨迹并打分的测试基础设施Harness vs Scaffolding常混淆社区细拆时Scaffolding 模型能看到的东西system prompt、工具描述、输出格式——塑造行为边界Harness 真正驱动运行的东西调模型 API、执行工具、判断停止条件——执行引擎简化讨论时常合并说Agent Model HarnessHarness ≈ Scaffolding 执行层简单记Harness 就是让 LLM 能干活的那整套工程壳子模型决定上限Harness 决定下限和稳定性。