中金 | Agent Harness:模型之外、智能之内


   中金研究

   今年,Agent是大模型行业最重要的方向。模型厂商致力于提升模型智能水平同时也在设计能够让大模型高效、稳定工作的系统层,现阶段,业界多将之称为Agent Harness,我们认为后续可能又会被其他名称取代,但模型之外将模型更高效、稳定在生产力场景应用的工程本身会不断动态外延。本篇报告,我们将结合国内外领先大模型厂商的实践,介绍、分析Agent Harness是什么?有怎样的作用?如何看其与模型的关系?

          点击小程序查看报告原文

  Abstract

   摘要

 Agent Harness是在模型外围构建一套可控、可编排、可验证的系统层,使Agent稳定完成复杂长程任务。

工程化范式已历经三轮演进。当前Agent Harness主要层级包括:执行环境与沙箱、工具调用、上下文与记忆管理、生命周期与编排、可观测性、验证评估、治理安全等。我们认为Harness实质是模型支持系统,无法通过几层功能堆叠实现良好的效果,更关键的是各层级的职责边界、功能复杂度设置、层级之间的交互规则。

 Agent Harness对模型厂商、Agent平台、用户、生态均有关键影响。

我们认为:对于模型公司,Harness有助于提升模型能力下限、加速模型迭代;对于Agent平台,记忆管理等功能有助提升用户粘性;对于客户,Harness有助于模型在生产力场景下更加可控且节省成本、安全,进行多Agent协作;此外,Harness是天然的生态入口,有可能创造新的商业形态。

 模型能力增强将持续Agent能力内生化,但Agent Harness也在动态外延。

当前模型训练已经明显呈现Agentic导向,越来越多原属于外部Agent Harness的能力,正在被训练进模型中,使Agent能力从“外挂式”逐渐走向“原生化”。长期来看,低层标准化能力可能逐步被模型吸收,而更靠近产品层、企业层与多系统协同层的能力,将继续成为厂商的重要竞争壁垒。

   风险

Harness空间被压缩;Agent落地、Harness商业化不及预期。

  Text

   正文

    一、什么是Agent Harness?

2025年以来,Agent逐渐成为行业主流方向,为了提升Agent能力,模型厂商一方面致力于提升模型智能水平;一方面,在模型之外,致力于设计能够让Agent高效、稳定工作的系统层,这类系统层即Agent Harness。Codex、Claude Code、Cursor,以及2026年逐渐被用户熟知的OpenClaw、Hermes等均一定程度属于这一范畴。

   Agent Harness工程化范式已历经三个阶段

 工程化范畴不断外延,并从单点优化走向系统构建。

从Prompt Engineering,提示词工程,可以简化理解为怎么给模型下指令,到Context Engineering,上下文工程,可以简化理解为让模型动态看到什么,再到Harness Engineering,可以简化理解为Agent系统怎样工作。

   图表1:Prompt、Context及Harness Engineering呈演进状态

   资料来源:Agent Harness Engineering: A Survey,中金公司研究部

► Prompt Engineering:2022-2024年大模型以ChatBot形态为主,Prompt Engineering聚焦编写和组织提示词,主要是针对单轮生成,进行模型输入优化。

► Context Engineering:2025年左右,Context Engineering进入视野,狭义来说Context Engineering是模型推理期间一系列筛选、压缩、管理信息的策略,解决模型在每一步应该看到哪些信息,包括如何检索和压缩记忆,如何处理上下文窗口饱和问题等。广义来说Context Engineering是一套围绕长短期数据、公私域数据管理的工程,让对的数据在对的时间出现在对的位置。

► Harness Engineering:2025年,模型逐渐具备完成长时间任务的能力,同时,用户对模型稳定执行、交付长时任务的需求也在大幅提升,Harness Engineering需求显现,它旨在设计一套完整的控制系统来指挥模型工作。相比Context Engineering,Harness Engineering还包括工具调用与环境、编排、验证与评估机制、治理与安全等,最终为模型构建出完整的工作环境,达到将模型能力转化为稳定、可落地、可规模化部署的生产力系统效果,实现Model + Harness=Agent。

   Harness Engineering标志Agent进入系统工程时代

从Agent Harness开发实践来看,各模型厂商及第三方具体实现方案各异,但本质都是:

 在模型外围构建一套可控的运行机制,让Agent能够更可靠地完成复杂任务。

业界对于这套机制有多种命名,近期最广为接受的名称是Harness。2025年11月到近期,OpenAI、Anthropic等领先模型厂商陆续发布Harness Engineering技术博客。

   图表2:Harness Engineering概念与相关实践发展时间线

   资料来源:Mitchell个人博客,各公司技术博客,中金公司研究部

► Anthropic持续迭代Harness。最初,采用双模块解决跨会话任务执行问题;随后,升级为三Agent架构,实现生成与评估分离。近期进一步解耦Harness,将大脑与双手拆开管理。

► OpenAI以Codex构建产品的实践引出Harness概念。人类负责指定意图、分解目标、设计反馈循环,Agent负责执行。工程师的角色从写代码转化为设计Harness,从而构建出Agent可理解、可执行任务的环境。

► LangChain提出Agent = Model + Harness[1],认为Harness是模型外所有代码、配置和执行逻辑。模型本身不是Agent,只有赋予它Harness时,它才能成为Agent。Harness的必要性来源于模型做不到之事:Agent需要实现什么、Model本身已可以实现什么,填充两者间的沟壑便是Harness设计的目标。

 第三方Agent Harness创新也在跃迁,近年热门的OpenClaw、Hermes本质是Agent Harness创新。

 OpenClaw在主动性、入口上创新。

它设计让Agent发起对话、推送信息,从被动的工具变为主动的助手,同时,它打通主流社交软件,降低了用户的使用门槛。具体实现上,"主动性"由一套叫做Heartbeat的巡检机制实现:通过配置定期检查任务,Agent会每隔一段时间自动查看邮件、日历、社交动态,发现重要信息时主动通知用户,不再被动等待用户提问;"入口"依赖多渠道消息接入系统,通过统一消息路由层,用户得以在最熟悉的平台与Agent直接对话。

 Hermes亮点在于自我进化。

它可在完成复杂任务后自动提炼可复用的Skills资产,并依据使用反馈自主迭代、修复优化,实现个性化服务。同时依托四层分层记忆架构实现跨会话的信息持久留存,为Agent进化提供支持。Hermes 还充分利用SQLite轻量级数据库,精简数据存储与读写链路,提高运行时效率。更加具体的实现我们将在后文展开介绍。

   Harness实质是模型的支持系统

 来自卡内基梅隆大学等机构的学者发布《Agent Harness Engineering: A Survey》[2],提出Agent Harness的ETCLOVG七层分类法。

包括:1)(E)执行环境与沙箱决定代理代码的运行位置,以及受哪些沙箱约束限制;2)(T)工具接口与协议如何描述、发现、调用外部能力;3)(C)上下文与记忆管理控制模型在短期、会话级和持久化视野内能看到的内容;4)(L)生命周期与编排组织读写该状态的控制流,包含单代理循环、多代理、问题拉取请求的工作流;5)(O)可观测性获取轨迹、成本、故障和可靠性信号;6)(V)验证评估、故障归因和回归反馈;7)(G)治理通过权限、身份、策略、审计和人工监督机制来约束行为[3]。

   图表3:Agent Harness的ETCLOVG七层分类法

   资料来源:中金公司研究部

 Harness实质是模型的支持系统,无法通过几层功能的堆叠实现好的效果,更关键的是各层级的职责边界、功能复杂度设置、层级之间的交互规则。

各大模型厂商、第三方Harness,对Harness组建有自己的理解和实践,但实质都是构建整一套模型支持系统。Claude Code展示了一个典型的优秀Harness工程实践。Claude Code v2.1.88源码总计约50万行,其中1.6%是直接与模型交互的核心代码,其他98.4%均是围绕模型构建的各式约束[4]。Claude Code[5]将不稳定、概率化的模型能力,装进一套确定、结构化的Harness。参考阿里云开发者[6]对源码的分析,Claude Code中一次真实请求输入到结果输出的简要流程如下:

► 进入控制链:先在启动层确定本次会话的运行边界、模式、权限、上下文,完成进程与会话状态分离。随后REPL(Read-Eval-Print Loop,交互式解释器)作为运行时控制台,整合输入、能力范围、权限状态、任务状态等,封装为完整执行轮次后移交核心循环。再由Query Loop(Agent核心循环)接手,完成多层上下文压缩、记忆预调取、技能检索匹配、流式模型推理。

► 进入执行链:模型如果发出工具调用请求,控制权交给Tool Runtime(工具运行时)负责单次工具调用执行,先经过Permission Decision(权限判定机制)进行规则校验、自动分类、交互确认、沙箱隔离,审核通过后方可执行;执行结果标准化为协议消息,回流到主消息流。

► 进入任务链:流程如果触发子Agent调度或者是后台任务,接入Task Runtime(任务运行时)负责统一管理生命周期、上下文隔离、结果回流、前后台切换)。

► 扩展层:把MCP(多客户端协议)、Skills(技能)、Plugins(第三方插件)转化为系统标准内部对象,为控制链、执行链、任务链持续注入拓展能力。

► 最终所有结果再回到Query Loop和REPL,成为下一轮上下文和用户可见状态。直到模型判断无需再进行工具调用,则输出最终结果、任务完成。

   图表4:Claude Code进行一轮完整的输入到输出示意图

   注:此图仅作示意

   资料来源:阿里云开发者,中金公司研究部

    二、Agent Harness应该有怎样的作用?

本章,我们将阐述Agent Harness对模型、Agent平台、用户、生态的作用,为了避免作用的总结过于悬浮和技术的分析过于枯燥,我们将在Harness作用分析中,结合Claude Code的实践。但请注意,一个作用、功能通常由Harness多个层级实现,而不是一一对应关系,再次强调上一章的观点:Harness实质是模型的支持系统,无法通过几层功能的堆叠实现好的效果,更关键的是各层级的职责边界、功能复杂度设置、层级之间的交互规则。

   对于模型公司:Harness提升模型能力下限、加速模型迭代

  Agent Harness能够提升模型能力下限

根据LangChain的实践,在不改变模型的情况下,他们通过修改提示词、工具配置和中间件钩子,让其Coding Agent在权威基准评测Terminal Bench 2.0上从Top30上升至Top5,控制变量式地展示了Harness本身的效益[7]。

   图表5:LangChain Deep Agents在terminal-bench达到Top5

   资料来源:LangChain,中金公司研究部

大模型领域专家Sebastian Raschka在阅读Claude Code源码后表示[8]:Claude Code 强大的核心在于其Harness,将其他模型接入该基座并针对性优化后,也能拥有顶尖代码能力。

小米大模型团队负责人罗福莉接受采访时提及Agent 能够有效激发中等模型的能力上限,借助优秀的 Harness 框架,中等模型可以处理除极复杂长程任务、严肃编程之外的绝大多数场景,约85%的任务都能达到Claude Sonnet同级水准[9],具备高实用价值。

 Agent Harness有助于模型加速迭代

 Harness 与 Model 打造双向飞轮,有望持续加速模型迭代效率。

以MiniMax实践为例,M2系列的Agent Harness以分层 Skills、持久记忆、安全护栏及评估基础设施为核心组件,对内承接模型训练与优化,对外连接 MCP 工具生态,构成模型能力落地与持续强化的基础设施。模型侧,M2.7已具备自主构建复杂Harness、驱动自身强化学习的能力,重点优化复杂 Skills 的遵循率及Agent Harness的适配能力;Harness侧,则持续完成反馈采集、评测集构建及Agent架构/Skills/MCP实现和记忆机制的迭代升级。二者相互作用:模型直接参与 Harness 的构建,Harness驱动模型自我进化。2026年5月,面壁智能联合清华大学、OpenBMB 开源社区正式发布 ForgeTrain——全球首个完全由 AI 编写、零人类代码介入的生产级大模型训练框架。面壁智能将“AI 制造AI”的进化路径划分为L1到L5五个级别,认为其中ForgeTrain对应 L3(AI 端到端闭环产出下一代大模型所需的基础设施)。

   图表6:AI研发自主性从操作辅助到自主共治的五级跃迁框架

   资料来源:中金公司研究部,面壁智能

   图表7:MiniMax M2.7模型迭代系统

   注:图中右上“Agent Harness”模块体现模型与Harness层的双向增强机制

   资料来源:MiniMax,中金公司研究部

   对于Harness平台:记忆管理有助于提升用户粘性

 记忆是Harness重要环节,且逐渐成为Agent壁垒。

记忆能力决定了Agent能否跨会话持续理解用户,并沉淀用户偏好、历史决策、工作流习惯及高价值上下文,使Agent演进为具备连续服务能力的长期助手。LangChain创始人Harrison Chase指出:若无记忆,同类工具即可轻易复刻Agent,记忆能让Agent持续优化、适配不同用户习惯并沉淀专属数据,对构建高质量、高粘性的体验至关重要,这将形成极强的平台锁定效应[10]。

 Harness应具有精细的分层及不同类型记忆、调用时使用LLM对记忆进行语义级选取,再配合周期性触发的Auto Dream(记忆整理机制)。

Claude Code构建了结构化的记忆系统,覆盖多个记忆类型,并灵活采用LLM in the Loop:以 CLAUDE.md 为载体的

 指令记忆

(融合全局规则与用户私有指令)、随会话生命周期存在的

 短期记忆

、与当前任务强相关的

 工作记忆

以及

 长期记忆

。其中,长期记忆按用户画像、行为偏好、项目信息、外部资源位置四类进行记忆分类,并且在调用时异步预取:遍历索引下所有md文件并只读前30行,由Sonnet模型结合上下文筛选相关记忆,不依赖向量和关键词匹配,实现语义级精准选取;此外,Claude Code通过子Agent持续维护

 摘要记忆

以服务会话压缩,并在满足周期条件时触发

 Auto Dream

机制,对记忆进行全局扫描、矛盾检测与重组整合,实现类人式的离线整理。

   图表8:Harness之记忆分层

   资料来源:阿里云开发者:Claude Code 源码拆解,阿里云开发者:Claude Code在Prompt/Context/Harness的设计与实践,中金公司研究部

 各平台通过封闭式架构设计,主动提升记忆迁移门槛。

Anthropic推出托管智能体[11],将执行与记忆等能力统一封装于API环境;Codex则将历史信息转化为加密式的压缩摘要[12],仅在OpenAI内部环境中可用。记忆所形成的跨周期粘性与迁移成本,才是Agent商业化阶段关键的留存壁垒。我们认为,头部大模型公司或将持续提升记忆的迁移门槛,争夺这一层重要用户状态资产。

   图表9:不同封闭程度的Harness下的记忆锁定

   资料来源:中金公司研究部,阿里云开发者LangChain

     对于客户:需要可控且节省成本、安全、多Agent协作

 近期头部模型厂商公司积极落地企业级Agent。

Anthropic和OpenAI此前就积极布局企业场景,Anthropic以Claude Code为基础,陆续推出用于多Agent协作的Agent Teams和企业协作平台Claude Cowork;OpenAI则拥有Codex赋能的云端Workspace Agents,以及用于企业大规模构建、管理并部署Agent的Frontier平台。近期,两家加快节奏,几乎同时成立合资公司,计划通过收购其他AI服务与咨询公司,扩充工程实施团队,将AI系统规模化部署至私募基金的被投企业中[13]。我们认为对于用户,尤其是企业级用户,在模型应用进入了生产力场景后,客户对可控且节省成本、安全性要求较强,对多Agent协作需求也有提升。

  可控且节省成本

 Harness可以通过多层级、动态组装的系统提示词,协助规范模型输出边界,缩减使用成本。

以Claude Code的Prompt分割为例,提示词被分割为静态与动态两部分:静态部分为用户所共有,包括Claude身份设定、系统行为规则、工具使用指南、安全准则、语气与风格等,不同会话共享缓存。动态部分依各用户与会话而不同,包括会话特定指导、自动记忆、MCP和临时文件等,不做缓存。再加上Git状态快照、CLAUDE.md、日期时间戳等,组装为最终系统提示词,整体设计利于提高缓存命中率,节省成本。

 压缩不足会迅速耗尽模型上下文资源,但过度压缩可能导致关键信息丢失,Harness有助于优化上下文管理。

Claude Code采取渐进式的压缩:首先对结构化工具输出进行微压缩,仅对白名单(如 Bash、Read、Grep)工具输出做裁剪,关键状态变更操作(如 Edit)则完整保留;其次在达到阈值时启用会话记忆压缩,直接以历史对话中已生成的摘要替代原始信息,不额外推理并设置单次压缩上限、优先淘汰旧消息;当轻量手段仍不足时,才进一步调用LLM压缩生成结构化摘要。在实际运行中,系统基于剩余上下文空间从轻到重逐级触发压缩机制,实现动态平衡。

   图表10:Harness之Prompt分割与上下文管理

   资料来源:阿里云:Claude Code 源码拆解,阿里云:Claude Code在Prompt/Context/Harness的设计与实践,中金公司研究部

  安全与权限约束

随着大语言模型进入企业生产力场景,安全性成为决定模型能否大规模落地的核心前提。对于企业级用户,AI Agent带来大幅效率提升,也带来安全挑战,提示注入攻击、恶意代码生成、敏感数据泄露等环节的疏漏均可能造成损失。构建严密、可扩展、可审计的安全与权限约束有助于解决效率与安全问题。

 Claude Code的工程实践是在各个关键节点使用规则匹配、独立子Agent等方式做拦截校验,并在沙箱中运行命令。

Hooks系统充当Agent全生命周期的拦截校验钩子,在不干扰模型推理路径的前提下实现外生约束。具体而言,系统在会话启动、工具调用前后等节点触发校验,运用字符串、正则、白名单等规则匹配,或是独立子Agent等进行代码与语义层双重审查。又如,权限系统在工具调用执行前裁决出Allow / Deny / Ask。此外,命令在沙箱环境中执行,将潜在破坏严格限制在可控范围,从而形成“前置审查+运行隔离”的双层安全架构。

   图表11:Harness之安全约束

   资料来源:阿里云:Claude Code 源码拆解,阿里云:Claude Code在Prompt/Context/Harness的设计与实践,中金公司研究部

  实现多Agent协作的基础

 Harness Engineering不仅旨在让单 Agent 更可靠地工作,也是用于优化多 Agent 间协作效果,通过群体智能加速业务创新[14]。

Claude Code将所有执行体统一建模为

 Task对象

,使多Agent协作落地为可工程化维护的系统,不同Agent通过并行协作或统一调度完成任务,并由环境隔离和异步通信确保互不干扰、稳定执行。

 Task 对象

具备独立生命周期、状态、进度与消息队列,利于解决任务分配、状态管理与异常回收,成为多Agent协作的基础单元。协作模式方面,系统支持多种模式按需调用,

 Agent Team模式

为扁平化并行架构,各组员独立自治,而

 Coordinator模式

为集中式编排架构,各工作者受到统一调度。同时,可通过Git Worktree为每一项任务分配专属空间实现Agent间隔离,通过MailBox机制实现 Agent 间异步通信,并内置Explore、Plan、Verification等专用Agent分工处理不同子任务。

   图表12:Harness之多Agent协作

   资料来源:阿里云:Claude Code 源码拆解,阿里云:Claude Code在Prompt/Context/Harness的设计与实践,中金公司研究部

   对于生态:Harness是天然的入口,有可能创造新的商业形态

 Harness是天然的生态入口。

我们认为Harness承担着基础设施与入口层的角色:接入模型、连接企业数据和工具,并负责上下文管理、任务编排、工具调用、安全控制和持久记忆等关键基础能力。随更多接口、服务、企业内部知识库沉淀,

 Harness的生态效应也会进一步增强,并有望以此成为商业化枢纽。

例如,Hermes、LangChain等Agent Harness本身开源,但已预装了Skills,用户在调用Skills时会消耗对应API调用额度与底层服务。

 我们认为Tools和Skills并非越多越好,需要Harness对工具调用描述清晰、调用准确、尽量少占据上下文。

我们认为,未来,除了大模型本身的商业化,可能Harness作为执行外部工具的枢纽,也可能形成稳定的分发抽成收入、新的商业形态。

传统Agent工具多以函数形式接入,一旦扩展到复杂真实场景,参数校验、权限管控、并发调度、异常处理等通用逻辑分散在各工具单独实现,导致拉高系统复杂度、执行逻辑割裂、维护成本增加等问题。对此,Claude Code做了两层优化:一是为所有工具统一封装输入规范、权限与并发规则,将工具升级为全局可识别的运行时对象;二是引入独立Tool Runtime管控层集中治理。后续新增工具时,新增复杂度统一由于Runtime承接处理,无需各环节重复开发,同时保障了工具执行逻辑统一和运行稳定。

 Claude Code将工具调用建模为受控的可治理对象,同时将工具中的通用逻辑集中到Tool Runtime层统一管控,有助于拓展新工具、在工具执行异常时仍推进运行。

在这一架构之上,Agent具备三项关键能力:一是基于副作用划分的并发调度策略以提升可靠性;二是模型生成与工具执行并行推进的流式执行机制,优化了长任务效率;三是对参数错误、权限拒绝等异常进行标准化封装并统一返回,从而避免流程中断,支撑复杂任务的稳定运行。

   图表13:Harness之工具调用

   资料来源:阿里云:Claude Code 源码拆解,阿里云:Claude Code在Prompt/Context/Harness的设计与实践,中金公司研究部

    三、模型是否会吞噬Agent Harness?

 Harness是否会随模型增强而消失,Big Harness与Big Model派争议尚存。

AI领域头部工程技术社区Latent Space梳理了多位头部公司核心人物的公开表态,并将这一分歧概括为“侧重模型能力建设与侧重框架工程建设的路线争议”[15]。

Big Harness派认为,模型正在快速趋于同质化,真正构成产品壁垒的是记忆、工具调度、评估、工作流编排等系统层能力。

Big Model派则认为,正如上一轮中推理模型出现后复杂脚手架变得不必要,Harness也是一种会被更强大的模型所取代的过渡产物,模型外裹着的壳子越轻量化越好。

LangChain等案例显示Harness可带来显著提升,但也有SWE-Atlas数据表明不同模型在不同Harness上的表现差异在误差范围内[16]。Harness相关Benchmark、学术研究也暂时比较匮乏,模型能力提升是否会压缩Harness的长期价值,仍待时间验证。

   2026年模型训练正呈现明显的Agentic导向

 头部公司围绕原生Agentic能力重构模型训练范式。

模型训练正呈现明显的Agentic导向,即持续引入多步规划、长周期交互、工具调用、自我纠错相关数据与强化学习机制,使模型在训练阶段即学习复杂Agent任务的规划、执行与纠错能力。核心变化在于:Agent能力正从推理时外挂变为训练时内化。我们可以从部分公司披露的模型训练中发现此趋势。

 ► Anthropic & OpenAI:

Anthropic在训练Claude时,有意让它练习如何成为一个Agent。模型会面对大量开放式问题,并通过在多种环境中分步骤思考、调用工具后得出答案,再在强化学习下大量实践习得在有限指导下完成复杂任务的能力[17];OpenAI则会在虚拟机环境中进行大规模强化学习,模型自主探索文本浏览器、图形化界面、终端等多种工具的最佳使用方式、学习工具编排策略[18]。

 ► 阿里:

在Qwen3-Coder-Next的训练中[19],预训练阶段就使模型大规模吸收真实软件工程任务与工具调用数据,建立编程与Agent行为的基础知识;监督微调阶段,直接引入OpenHands、Claude Code等Agent 框架产生的多轮Agent轨迹进行训练;强化学习阶段则将模型置于可执行环境中自主试错,通过环境反馈直接优化决策路径,将成功的行为序列固化为模型参数。

 ► 智谱:

在GLM-5的训练中[20]引入大量Agent交互轨迹、长代码库与复杂工具调用数据,并在后训练阶段加入Agentic RL,支持模型在上万真实SWE 环境中持续学习任务规划、自我纠错与策略切换能力,使模型能够在真实软件工程、终端、搜索等环境中完成端到端的长周期交互任务。最新的GLM-5V-Turbo更进一步[21],在30多种任务的强化学习池中联合优化,以多模态感知作为推理、规划和工具使用的核心组件,与图形化界面交互的能力增强,同时显著提升了模型的跨场景规划与适应能力。

   图表14:GLM-5运用Agent数据训练并引入Agentic RL

   资料来源:智谱官网,中金公司研究部

正如LangChain的Agent = Model + Harness,模型Agentic能力提升的过程,一定程度上对应着Harness被打薄的过程。头部厂商通过轨迹数据、强化学习与环境模拟等技术路径,将原本属于外部Agent Harness的功能和编排执行逻辑直接训入模型权重。如是,外部沉重的Agent Harness逐渐被模型内化的原生能力取代,形成模型吸收框架的趋势。

   Agent Harness是模型智能边界的动态外延

 虽然Agent Harness中的部分内容将不可避免地向模型沉降并实现内生化,但是,我们认为:

 Agent Harness不会随模型增强而直接消亡。

Agent Harness呈现出“Built to delete”的特性,即旧框架的代码最好可以随时被移除以适配更强的新模型,但是外围确定性的约束与编排框架,能够提升复杂交互的稳定性、可控性。概念与范围会不断演进,Harness Engineering可能后续又会被其他范式取代,但“Agent Harness”本身可能会不断动态外延。

 此外,Agent Harness在真实任务中捕获的Agent行为轨迹数据是训练模型Agentic能力的重要素材。

例如,NVIDIA推出SWE-Hero Trajectories数据集,依托OpenHands框架采集生成数万条软件工程Agent轨迹,用于大模型指令微调训练[22]。复杂长程任务中的高价值失败场景,也可通过Harness记录、沉淀并转化为下一轮训练数据。谷歌工程师Philipp将这种价值表述为“Harness is the dataset”[23]。

 偏向产品层的能力将作为厂商差异化的护城河长期存在。

随基础模型能力增强,其对工具调用、任务分解、链式推理与简单工作流编排的覆盖范围不断扩大,原本由Harness承担的“显式工程逻辑”持续收缩。这其实是对Harness的分层重构:底层标准化能力,如常规调度逻辑、简单状态管理、基础工具调用等具备高度可学习性,最先被模型吸收;但越靠近产品层,越涉及跨系统协同、多Agent协作与具体业务,其强工程属性与场景依赖性难以被统一模型完全替代。长期来看,Agent Harness的重心或将上移:低阶能力被模型吞噬并标准化,高阶的产品化与系统级工程能力成为厂商重要竞争力。

   投资建议

 关注主动研发自身Harness的模型厂商。

我们认为对于模型公司,Harness的价值体现在:在模型能力方面,有助于提升模型能力下限、加速模型迭代;在满足客户需求方面,尤其是企业级客户需求上,Harness有助于模型在生产力场景下更加可控且节省成本、安全,进行多Agent协作。此外,Harness是天然的生态入口,有可能创造新的商业形态。我们认为,具备自主Harness研发能力的模型厂商,相比依赖第三方框架者,能够形成更持久的商业竞争优势。

 关注模型训练呈现Agentic导向的模型厂商。

模型能力增强将持续Agent能力内生化,但Agent Harness也在动态外延。当前模型训练已经明显呈现Agentic导向,越来越多原属于外部Agent Harness的能力,正在被训练进模型中,使Agent能力从“外挂式”逐渐走向“原生化”。长期来看,低层标准化能力可能逐步被模型吸收,而更靠近产品层、企业层与多系统协同层的能力,将继续成为厂商的重要竞争壁垒。我们建议重点关注在模型训练中系统性引入Agentic数据与强化学习机制的厂商,关注Harness与模型的双向迭代优势。

 关注记忆与数据粘性高的Harness平台。

记忆能力决定了Agent能否跨会话持续理解用户,并沉淀用户偏好、历史决策、工作流习惯及高价值上下文,使Agent演进为具备连续服务能力的长期助手。当前,头部平台已经开始通过封闭式架构设计,主动提升记忆迁移门槛。记忆所形成的跨周期粘性与迁移成本,是Agent商业化阶段关键的留存壁垒。

    四、各厂商在做怎样的Agent Harness实践?

   OpenAI:重构软件工程生产方式

 2026年2月,OpenAI 以零行手写代码构建起百万行的完整软件产品并发布《Harness Engineering: leveraging Codex in an agent-first world》正式确立Harness Engineering。

OpenAI在过去五个月完成了一款纯AI生成代码的软件产品内部Beta版,从空Git仓库起步,3名工程师驱动Codex,产出约100万行代码,1500个PR,代码编写和审核全部由Agent完成。项目耗时只有传统开发的十分之一,团队后期扩展至7人时,人均吞吐量不降反升,速度与效率均亮眼。

 人类通过Harness Engineering把控方向,Agent执行落地。

Codex本身能力很强,但缺乏实现高级目标所需的工具、抽象层和内部结构,导致早期进展较慢。当进行不顺利时,工程师基本不会让Agent重复任务,而是介入并追问:“还需要怎样的能力?如何让这个能力对Agent来说既清晰可读又可强制执行?”,从而通过设计开发环境、明确任务意图、搭建反馈回路等做针对性的改进——这就是在做Harness Engineering,以下为核心案例:

 1)硬性约束:

仅靠文档无法维持Agent生成的代码库的一致性。因此,团队不再对实施过程进行微观管理,而是选择强制执行架构与规范的不变量“死规矩”,为Agent搭建起严格分层、边界清晰的执行领域。这些架构约束通过自定义静态代码校验器(Linter)和结构测试被机械地自动化执行,严格管控层级间的依赖关系,在全局严守架构边界的前提下给予Agent自主空间,成为Agent的效率倍增器,在保障架构不漂移的同时维持高效交付。

   图表15:代码只能“向前”依赖于一组固定的层

   资料来源:OpenAI,中金公司研究部

 2)上下文管理:

上下文是极其稀缺的资源。OpenAI团队早期尝试用一份长篇大论的 `AGENTS.md` 来指导Agent,但它不仅会挤占有限的上下文空间、导致智能体漏掉关键指令,而且极易过时,人类根本没法机械地核实各规则是否仍准确。于是,团队将策略转为“只给地图,不给说明书”。他们把代码仓库设为唯一的记录系统,将详细的设计和架构文档存入结构化的目录,而 `AGENTS.md` 则精简成约100行的导航索引。这种方式实现了渐进式披露,Agent不再被海量信息淹没,而是从一个精简的入口出发,根据任务需要按图索骥查找深层信息。

 3)让Agent能看见结果:

为让Codex有更好的质量核验能力,团队接入Chrome开发者工具协议,让它具备查看并进行操作的能力。每次修改代码后,Agent会启动一个隔离的应用实例(沙箱环境),比对修改前后的截图和运行时日志。可观测性栈服务(observability stack services)也经过了类似处理,可跟随当前代码工作树,生成配套单次开发任务的临时本地监控集群。这套环境让Agent可以直接检查日志与指标,并验证类似“启动时间低于800ms”等较严苛的需求。任务完成后,该临时堆栈及其产生的数据则会被立即销毁,不继续占用资源。此模式协助Codex实现了单次任务运行无需干预便可持续6小时以上。

   图表16:Codex中结果可观测性的具体实现

   资料来源:OpenAI,中金公司研究部

 4)垃圾回收:

Agent在开发中会引发系统熵增、模式漂移问题,甚至盲目复现仓库里不佳的既有模式,错上加错。团队最初靠人工每周清理AI产生的冗余代码,效率低且难以规模化。因此,团队将人类的工程品味提炼为数条规则编码进仓库,并建立了自动循环清理机制——由后台Codex任务持续扫描偏差、发起有针对性的重构PR并自动合并,其功能类似于系统的垃圾回收。这种高频小额修复可以避免技术债务累积,实现不良模式的即时发现与修正,保障代码库长期一致性。

   Anthropic:持续推出,持续解耦、打薄

Anthropic自2025年下半年开始持续探索Harness Engineering,并在其工程博客发布相关研究,从双模块到三代理架构逐步分离职责,到主动去除随模型能力提升而过时的“死权重”,最终解耦架构使Harness更轻薄,具体如下:

  Effective harnesses for long-running agents

 2025年11月,Anthropic提出双模块方案(two-part solution),一套用于稳定长时运行Agent的Harness设计改进。

复杂任务一般涉及多个上下文窗口,但Agent难以很好地跨多窗口“接力”运行。具体来说,Claude Agent最常出现的失败有两种,一种是因试图一次性完成过多任务而中途耗尽上下文,且由于一些功能只完成了一部分而没有任何文档记录,Agent只得在启动下一会话时猜测进度;另一种是接续的Agent发现部分功能已有进展便过早判定任务完成。若想让Agent在多窗口间稳定地将任务进展下去,需要能弥合各会话信息差的方法,让Agent在开启全新上下文窗口时能快速了解工作状态。

 双模块方案的核心是拆分两个角色,初始化Agent负责理解任务与制定计划,编码Agent负责执行与验收。

初始化Agent会在项目开始时生成一份全面且结构化的清单,其上列举待完成的需求并标记为未通过,为编码Agent提供明确目标空间。编码Agent采用“增量进展”(incremental progress),每次只做一个功能(one feature at a time),完成后通过Git回滚等方式保持环境的干净状态;测试时使用浏览器自动化工具(browser automation tools),Agent会像人类用户一样进行交互,并通过截图来验证功能是否正常;会话结束时编写Git提交和进度更新,让下一个会话通过读取前述文档快速上手。

   图表17:Agent失败模式与解决方案

   资料来源:Anthropic,中金公司研究部

  Harness design for long-running application development

 2026年3月,Anthropic介绍三代理架构,对用于应用全栈构建Agent的Harness进行优化,大幅提升输出质量。

针对LLM在评估自己的工作时倾向于给出正面评价的问题,团队受生成对抗网络(GAN)启发,将执行任务与做评价的Agent分开,并最终发展出三代理架构:Planner、Generator和Evaluator。Planner负责将简短的Prompt扩展为完整的产品规格说明书,Generator遵循Sprint冲刺模式,即将复杂任务拆解、一次只做一个功能,Evaluator则借助Playwright MCP点击运行中的应用以用户视角测试UI功能、API端点和数据库状态,并根据预设标准评级。由于产品规格书通常较宏观,Generator与Evaluator 会在每个Sprint开始前通过协商达成一份冲刺合同(sprint contract),将抽象需求转化为具体且可测试的技术指标,明确任务完成的定义。此架构通过分离生成与评估减轻了模型的自我评估偏差,并使Generator在Evaluator的严格审计下不断迭代。

 主动消除“死权重”,为Harness做减法。

Harness并非一成不变,Anthropic的探索过程中有两例可作辅证:

1)部分模型在接近上下文限制时会提前收尾工作。针对该上下文焦虑,Anthropic设计了上下文重置机制,即清空上下文窗口并用结构化工具携带之前的状态。然而随模型迭代到Opus 4.5,上下文焦虑问题已在模型层面消除,重置机制也被从Harness中移除。

2)在Opus 4.6阶段,由于模型原生支持更长任务的规划,复杂的Sprint结构也被简化。

Anthropic内部称这类随模型能力增强而过时的约束为“死权重”(dead weight)[24],上述两个例子揭示了Harness设计的核心特征:需随模型能力提升而动态变化,尤其是去除“死权重”,否则Harness会成为模型的拖累而非助力。

  Scaling Managed Agents: Decoupling the brain from the hands

 2026年4月,Anthropic将原Harness架构解耦、打薄,新Harness成为负责调度的无状态指挥中心。

类似计算机操作系统,底层硬件不断变化,但通过定义长期有效的接口,可以让未来出现的软件也能在上稳定运行,Anthropic将Harness也调整为一层稳定抽象。在此思路下,原Harness被主要拆成三部分:会话(Session)、沙箱(Sandbox),剩下的部分为新Harness。Session是记录所有发生事件的追加日志,SandBox是隔离开来的执行环境,新Harness是一套作为指挥中心的循环程序,负责调用Claude模型并将模型提出的工具调用路由至相关基础设施。新Harness本身是无状态的,它的所有状态信息要从Session中读取,新Harness本身也是没有“手脚”的,它要通过SandBox运行代码、编辑文件。

   图表18:解耦后的Managed Agents Harness

   资料来源:Anthropic,中金公司研究部

 从宠物到羊群,兼顾强恢复性、高安全性与低延迟。

宠物式架构需要人工精心养护:任何组件故障都可能导致会话丢失、故障排查困难,还容易形成隐性依赖——当客户需将模型接入自身虚拟私有云时,需进行网络对等配置或在客户环境独立部署框架。通过解耦重构为羊群式架构,则各部分成为可替换的资源,灵活且成本低。具体来说,这一架构转变带来了三大核心优势:

 1)强恢复性:

每个组件都能在不影响其他组件的情况下进行替换,强恢复性正是强替换性另一角度的体现。比如,因为会话日志独立于Harness存在,Harness 崩溃后可以重新启动并从上次中断的地方继续;再比如,长任务经常超出模型的上下文长度,传统普遍采取不可逆的压缩,但单独保存的会话日志让模型可以持续保存过往上下文,推理时再按需查询调用。

 2)高安全性:

此前代码和凭证(Token)这类系统钥匙运行在同一环境,一旦模型被提示词注入(prompt injection)诱导读取自己的环境,攻击者就能拿到凭证。将SandBox单独隔离后,代码运行时接触不到任何凭证,从结构上杜绝相关安全隐患。

 3)低延迟:

过去每个推理都要搭建完整的容器——就算不涉及SandBox也需等待代码仓库克隆、进程启动等。这个过程的耗时是用户感知最直接的延迟,以首令牌响应时间(TTFT),即在接收任务与生成首个Token之间的等待时长表示。解耦后,编排层一从Session中拉取待处理事件,推理就立即开始,且只有真正需要时才启动执行环境,TTFT缩短了约60%至90%。

   Hermes:尝试构建具备自进化能力的Agent系统

 Hermes构建Agent直接驱动的Harness自我进化闭环。

Hermes Agent是由Nous Research打造的开源Agent,近期在GitHub等社区热度持续攀升,其独特性在于Harness中的学习闭环设计。根据MiniMax的介绍,Hermes Agent在完成复杂任务后,会自动从中提炼出可复用的Skills,保存为独立文档。在后续的使用中,这些Skills会被按需加载,并根据新的使用反馈不断自我改进。配合持久化的跨会话记忆,自然语言定义的定时任务、以及多个子代理的并行运行机制,Hermes Agent得以成为能长期运行、不断进化的智能体。

 Hermes持续成长,自我进化的具体实现如下:

 1)核心循环:

Agent完成任务后,自动提取可复用的Skill资产并修复错误或过时的Skill。具体来说,所有Skill通过列表形式整理,Agent会在进行任务时按需匹配并渐进式加载。当出现需要5+工具调用才完成的复杂任务、有经过反复修改才过关的任务,或者发现有价值的工作流,Agent都会在进行自我评估后自动创建Skills。Hermes还设有即时的自主修复机制,当技能被调用时被监测出过时或不够好,Agent会主动用补丁工具(patch)修复。

 2)四层记忆架构:

提示词记忆层常驻内存、全程加载,会话检索记忆层留存全量运行推理轨迹、支持全文检索,技能记忆层按需惰性加载、兼顾灵活性与稳定性,用户画像记忆层跨会话持久化配置。再配合记忆模块写入规则、安全扫描等机制,既防记忆污染与崩溃,又实现信息归档,为进化提供核心知识底座。

   图表19:Hermes Agent的自我进化系统

   资料来源:MiniMax,中金公司研究部

 相比OpenClaw,Hermes在数据库运行的设计上更轻量。

两者均采用SQLite(公认的轻量级数据库)作为底层存储引擎,以规避传统数据库带来的运维复杂度。然而在"SQLite扮演什么角色"这一问题上,两者走向了不同路径。

 ► OpenClaw中Markdown文件是数据的"真值源",SQLite主要被用作索引。

存储层面,对话历史与长期记忆均以纯文本md形式持久化于磁盘,SQLite中则存储用于搜索的索引映射与向量嵌入。当Agent需要检索数据库内容时,系统先通过SQLite的全文索引或向量搜索定位目标片段,再回溯到原始文件中提取内容并返回,存在额外的读取跳转。在写入层面,每条新记忆需同步更新文件与索引、生成向量嵌入以支持语义搜索,并依赖后台监控进程自动检测文件变更以保持文件与索引的一致性。这样的设计也有优势,比如纯文本原始数据的可迁移性较强。

 ► Hermes将SQLite直接嵌入执行循环核心,弱化了文件系统的作用。

存储层面,对话历史以结构化形式直接存于数据库,长期记忆与用户偏好则通常以md文件形式存储。检索时,直接通过数据库内建的全文索引实现精确定位,无需额外访问外部文件。写入层面,数据直接写入数据库,无需维护额外的文件同步链路,且默认检索路径对向量索引依赖较弱。

 这一设计的核心优势在于运行时效率:查询路径更短、写入开销更低、无需持续的后台监控进程。

但相应地,对话历史数据存储于二进制数据库中,无法像纯文本文件一样直接打开阅读,迁移与导出需要相关数据库工具。

   图表20:Hermes与OpenClaw数据库对比

   资料来源:OpenClaw源码,Hermes源码,阿里云开发者,中金公司研究部

   风险提示

  Harness空间被持续压缩风险

伴随基础大模型训练范式呈现明显的Agentic导向,多步规划、自我纠错与环境交互等工程能力正加速向大模型参数权重沉淀,导致模型内生化许多原本归属于Harness的功能。若模型吸收Agent框架的趋势超预期,Harness本身或面临被边缘化,导致相关厂商的竞争壁垒与长期市场空间被压缩。

  企业级Agent落地不及预期

企业级严肃生产环境对Agent的稳定性、幻觉控制及实际交付要求较高,且Agent深度涉及私有数据的跨系统流转、状态与记忆管理,以及工具与执行环境的高系统权限调用。若合规安全性存在漏洞,或完成复杂长程任务的ROI未达预期,或导致下游企业IT资本开支放缓,延迟企业级Agent落地。

  Harness商业落地与生态变现存在不确定性

依托Agent框架作为企业级入口、通过Skills及工具生态进行API分发抽成的平台型变现路径仍处于探索早期,分成机制落地与抵御模型厂商自建封闭生态的壁垒仍具不确定性。

      [1]https://docs.langchain.com/oss/python/langchain/agents

      [2]https://openreview.net/pdf?id=eONq7FdiHa

      [3]Agent Harness Engineering: A Survey

      [4]Dive into Claude Code: The Design Space of Today's and Future AI Agent Systems

      [5]https://mp.weixin.qq.com/s/VHVZV0rrCxYkbrxjuQzIAQ

      [6]https://mp.weixin.qq.com/s/VHVZV0rrCxYkbrxjuQzIAQ

      [7]https://www.langchain.com/blog/improving-deep-agents-with-harness-engineering

      [8]https://x.com/rasbt/status/2038980345316413862

      [9]独家对话罗福莉:AI范式已然巨变

      [10]https://x.com/hwchase17/status/2042978500567609738

      [11]Claude Managed Agents: get to production 10x faster | Claude

      [12]从模型到智能体:为 Responses API 配备计算机环境 | OpenAI

      [13]Building a new enterprise AI services company with Blackstone, Hellman & Friedman, and Goldman Sachs \ Anthropic

      OpenAI launches the OpenAI Deployment Company to help businesses build around intelligence | OpenAI

      [14]Harness驾驭工程是AI平权的必经之路?

      [15]https://www.latent.space/p/ainews-is-harness-engineering-real

      [16]https://labs.scale.com/leaderboard/sweatlas-qna

      [17]Anthropic:如何构建更高效的AI Agent?

      [18]OpenAI Just Released Its Powerful New ChatGPT Agent | Sequoia Capital

      [19]Qwen3-Coder-Next Technical Report

      [20]Z.ai - Inspiring AGI to Benefit Humanity

      [21]GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents

      [22]https://huggingface.co/datasets/nvidia/SWE-Hero-openhands-trajectories

      [23]The importance of Agent Harness in 2026

      [24]Harnessing Claude's Intelligence | 3 Key Patterns for Building Apps | Claude

  Source

   文章来源

本文摘自:2026年5月31日已经发布的《人工智能十年展望(二十九):Agent Harness:模型之外、智能之内》

于钟海 分析员 SAC 执证编号:S0080518070011; SFC CE Ref:BOP246

车姝韵 分析员 SAC 执证编号:S0080523050005; SFC CE Ref:BTM272

王倩蕾 分析员 SAC 执证编号:S0080524100004; SFC CE Ref:BXT568

童思艺 分析员 SAC 执证编号:S0080524060015; SFC CE Ref:BVD355

李铭姌 分析员 SAC 执证编号:S0080524070025; SFC CE Ref:BTQ513

赵丽萍 分析员 SAC 执证编号:S0080516060004; SFC CE Ref:BEH709

  Legal Disclaimer

   法律声明

   特别提示

   本公众号不是中国国际金融股份有限公司(下称“中金公司”)研究报告的发布平台。本公众号只是转发中金公司已发布研究报告的部分观点,订阅者若使用本公众号所载资料,有可能会因缺乏对完整报告的了解或缺乏相关的解读而对资料中的关键假设、评级、目标价等内容产生理解上的歧义。订阅者如使用本资料,须寻求专业投资顾问的指导及解读。

   本公众号所载信息、意见不构成所述证券或金融工具买卖的出价或征价,评级、目标价、估值、盈利预测等分析判断亦不构成对具体证券或金融工具在具体价位、具体时点、具体市场表现的投资建议。该等信息、意见在任何时候均不构成对任何人的具有针对性的、指导具体投资的操作意见,订阅者应当对本公众号中的信息和意见进行评估,根据自身情况自主做出投资决策并自行承担投资风险。

   中金公司对本公众号所载资料的准确性、可靠性、时效性及完整性不作任何明示或暗示的保证。对依据或者使用本公众号所载资料所造成的任何后果,中金公司及/或其关联人员均不承担任何形式的责任。

   本公众号仅面向中金公司中国内地客户,任何不符合前述条件的订阅者,敬请订阅前自行评估接收订阅内容的适当性。订阅本公众号不构成任何合同或承诺的基础,中金公司不因任何单纯订阅本公众号的行为而将订阅人视为中金公司的客户。

   一般声明

   本公众号仅是转发中金公司已发布报告的部分观点,所载盈利预测、目标价格、评级、估值等观点的给予是基于一系列的假设和前提条件,订阅者只有在了解相关报告中的全部信息基础上,才可能对相关观点形成比较全面的认识。如欲了解完整观点,应参见中金研究网站(http://research.cicc.com)所载完整报告。

   本资料较之中金公司正式发布的报告存在延时转发的情况,并有可能因报告发布日之后的情势或其他因素的变更而不再准确或失效。本资料所载意见、评估及预测仅为报告出具日的观点和判断。该等意见、评估及预测无需通知即可随时更改。证券或金融工具的价格或价值走势可能受各种因素影响,过往的表现不应作为日后表现的预示和担保。在不同时期,中金公司可能会发出与本资料所载意见、评估及预测不一致的研究报告。中金公司的销售人员、交易人员以及其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本资料意见不一致的市场评论和/或交易观点。

   在法律许可的情况下,中金公司可能与本资料中提及公司正在建立或争取建立业务关系或服务关系。因此,订阅者应当考虑到中金公司及/或其相关人员可能存在影响本资料观点客观性的潜在利益冲突。与本资料相关的披露信息请访问http://research.cicc.com/disclosure_cn,亦可参见近期已发布的关于相关公司的具体研究报告。

   本订阅号是由中金公司研究部建立并维护的官方订阅号。本订阅号中所有资料的版权均为中金公司所有,未经书面许可任何机构和个人不得以任何形式转发、转载、翻版、复制、刊登、发表、修改、仿制或引用本订阅号中的内容。