跳转到主内容最近抖音博主「慢学AI」分享了一个观点:2026年,AI领域比拼的不是模型,而是 Harness。
这句话听起来有点反直觉。毕竟过去两年,我们见证了 GPT-4、Claude、Gemini 之间的激烈角逐,所有人都在问"哪个模型更强"。但 OpenAI、Anthropic、LangChain 等顶级团队的最新实践表明——当模型能力达到一定阈值后,真正决定成败的是包裹在模型外面的那套系统。
这套系统,现在有了一个正式的名字:Harness Engineering(驾驭工程)。
什么是 Harness?
Harness 的原意是"马具"——缰绳、马鞍、嚼子那一整套驾驭马匹的装备。
放到 AI 领域,这个比喻非常精准:
模型是马
Harness 是马具 —— 约束它、引导它、让力量转化为有用的工作
- 模型 = CPU(提供原始算力)
- Harness = 操作系统(管理上下文、处理流程、提供标准驱动)
- 文件系统 —— 给模型持久工作空间,跨会话保持状态
- 代码执行/沙箱 —— 安全隔离的执行环境(Docker → microVM)
- 上下文管理 —— 动态知识注入、渐进式信息披露
- 工具编排 —— Tool Use / Skills / MCP 等外部能力调用
- 循环与验证 —— 观察→决定→行动→验证→更新的闭环
- 治理与限制 —— 成本控制、超时设置、人工审批节点
为什么 2026 年拼的是 Harness?
数据不会说谎
| 案例 | 结果 |
|---|
| OpenAI Codex 实验 | 3个工程师,5个月,100万行代码,零人工编写 |
| LangChain 优化 | 仅改进 Harness,Terminal Bench 排名从 30→5,得分 52.8%→66.5% |
| 同一模型对比 | 有 Harness vs 无 Harness:78% vs 42% 成功率 |
| Cursor 突破 | 用写代码的 Harness 解决了斯坦福级数学难题 |
这些数字揭示了一个令人不安的事实:底层模型的重要性远不如其周围的系统。
LangChain 的排名跃升最能说明问题——他们没有对模型做任何改动,只优化了文档结构、验证回路、追踪系统这些 Harness 层面的东西,就从第 30 名冲到了第 5 名。
模型正在商品化
SOTA(最先进)模型的迭代周期已经缩短到 35 天。GPT-4.1、Claude Sonnet 4.5、Gemini 2.5 Pro……它们之间的差距越来越小。
当所有模型都"足够聪明"时,竞争的焦点必然转移。就像 PC 时代,CPU 性能达到一定程度后,体验差异更多来自操作系统和软件生态。
OpenAI 的内部判断是:框架(Framework)只提供了 20% 的生产能力,剩下的 80% 是 Harness。
Harness Engineering 的三大支柱
根据 OpenAI 和 Anthropic 的工程实践,Harness Engineering 可以归纳为三个核心维度:
支柱一:上下文工程(Context Engineering)
OpenAI 团队早期犯了一个经典错误:把所有指令塞进一个庞大的 AGENTS.md 文件。结果 Agent 被信息淹没,性能反而下降。
AGENTS.md 精简为约 100 行的"目录"
- 指向结构化的
docs/ 目录
- Agent 从稳定切入点开始,按需深入
Anthropic 提出的三层上下文体系也值得借鉴:
- 热记忆(Hot Memory)—— 当前任务相关
- 领域专家(Domain Experts)—— 特定模块文档
- 冷记忆知识库(Cold-Memory Knowledge)—— 通用参考
支柱二:架构约束(Architectural Constraints)
把"写在文档里的规范"变成"可强制执行的不变量"。
Types → Config → Repo → Service → Runtime → UI
并通过自定义 Linter 强制执行。一个关键细节:他们花了数小时重写 Linter 的错误输出格式,让 Agent 能"读懂"出了什么问题,并自动修复。
支柱三:熵管理(Entropy Management)
完全自主的 Agent 会引入"漂移"——随着时间推移,代码库会积累不一致的风格、冗余的工具函数、过时的注释。
OpenAI 早期的做法是每周五花 20% 的时间手动清理"AI 残渣",但这不具备可扩展性。解决方案是:
- 制定黄金原则(Golden Principles)
- 把主观的代码品味编码成机械可检查的规则
- 运行周期性的后台清理 Agent
工程师角色的重新定义
Harness Engineering 的核心理念可以用八个字概括:Humans steer, Agents execute(人类掌舵,Agent 执行)。
| 传统模式 | Harness 模式 |
|---|
| 编写代码 | 设计环境 |
| 执行者 | 规则制定者和掌舵人 |
| 编码熟练度 | 意图定义、架构设计、反馈闭环搭建 |
OpenAI 的 3 人团队在五个月内平均每天处理 3.5 个 PR,如果是传统开发模式,这至少需要 20-30 人。
秘诀在于:人和人之间几乎没有代码层面的依赖了。每个工程师面对的不是"我在写的代码和你在写的代码会不会冲突",而是"我设计的环境和你设计的环境是否兼容"。
如何开始实践?
- 创建
AGENTS.md(约100行的目录,非大而全的说明书)
- 建立
docs/ 结构化文档体系
- 编写自定义 Linter(错误消息要对 Agent 可读)
- 设置 Pre-commit hooks
- 建立可观测性基础设施
- 构建可剥离的 Harness —— 当模型进步到不再需要某层逻辑时,能轻松移除
- 每次 AI 犯错,修系统,不修人
- 从简单开始,逐步迭代
2026年的趋势判断
"2025年是 Agent 年,2026年是 Agent Harness 年。" —— Aakash Gupta
- 模型作为商品 —— SOTA 模型迭代周期 35 天,差异化主要来自 Harness
- Harness 作为操作系统 —— 模型是内核,Harness 是 OS
- 新护城河 —— 未来最有价值的公司不是拥有最强模型的公司,而是拥有最好 Harness 的公司
- 技能转移 —— Prompt Engineering → Context Engineering → Harness Engineering
openai/codex — ⭐ 65K
bytedance/deer-flow — ⭐ 30K
langchain-ai/deepagents — ⭐ 11K
给我的看法
Harness Engineering 的兴起标志着软件工程的一次范式迁移。
传统软件工程本质上是一个管理学问题:怎么组织人、分配任务、协调进度。Harness Engineering 本质上是一个控制论问题:怎么设计一个系统,使得 Agent 在其中运行时,输出收敛于期望目标,而不是发散到混乱。
这不是"软件工程的终结",而是工程师角色的进化。从"写代码的人"变成"设计笼子的人"——确保那副"马具"足够坚固、足够智能,能让 AI 这匹烈马安全、高效地奔向目标。
正如 Martin Fowler 所言:这是对"AI 赋能软件开发关键部分的一种有价值的框架性阐述"。
参考来源:本文核心观点来自抖音博主「慢学AI」的视频《2026 拼的不是模型,而是 Harness》,以及 OpenAI、Anthropic、LangChain 的工程实践报告。