大家久违了!最近更新推迟了很久,过去一个多月大部分时间都花在了 OpenClaw深度研究版本的开发,我们获得了长足的进步。从Agent在投资研究的工作稳定性、有效性上我们看到了非常大的潜力。接下来一段时间内我们会陆续和大家分享我们的设计思路和研究的产出。希望能够让朋友们有收获。
引子:同样的模型,为什么产出天差地别? 过去两年,几乎所有人都用上了大模型。但一个普遍的体感是:同样一个模型,有人用它写出一份能进投决会的研究报告,有人用它只能得到一段”看起来很对、但不敢用”的文字。
差别不在模型,在模型外面那一层东西。这一层,在工程上有个名字——Harness(运行支架)。
这份文档要讲的,就是我们如何为”深度投研”这件事,设计并跑通了一套完整的 Harness 架构。
第一部分 为什么是 Harness:从 Claude Code 说起 1.1 什么是 Harness Anthropic 的 Claude Code 是一个很好的参照物。它背后的模型,和你在网页上对话用的是同一个。但 Claude Code 能连续工作几十分钟、自己读代码、自己改文件、自己跑测试、自己验证——而网页对话做不到。
原因是 Claude Code 在模型外面包了一层 Harness:
一个循环:让模型可以”想一步、做一步、看结果、再想下一步”,而不是一次性吐完就结束; 一套工具:让模型能真正读文件、执行命令、调用接口,而不只是”描述”该怎么做; 一套上下文管理:决定每一步把什么信息喂给模型、什么时候该忘掉、什么时候该回看; 一套关卡与权限:危险动作要先确认,关键步骤要先验证,不允许”跳步”。 打个比方:模型是发动机,Harness 是传动系统、底盘、仪表盘和刹车。 发动机决定了能力的上限,但一辆能上路的车,靠的是发动机之外那整套系统。Harness 才是真正决定”这套 AI 能不能交付实际工作”的部分——而且,Harness 是可以持续迭代、越用越好的那一部分。
1.2 单点 AI 问答的三个天花板 把”一个人对着一个对话框提问”叫做单点 AI 问答。它在投研场景里有三个绕不过去的天花板:
天花板 表现 后果 会失忆 对话一长,前面说过的约束、定下的口径、列过的假设,模型自己就淡忘了 长任务做到后面开始跑偏、自相矛盾 不可控 你无法保证它”先做 A 再做 B”,也无法阻止它跳过该做的步骤 流程没法标准化,每次结果都看运气 不可信 它会用很笃定的语气说一个没有来源、没经过反方检验的结论 产出”不敢用”,还得人去逐句核 投研恰恰是对这三点最敏感的场景:一份研究往往要跨几天、几十个数据源、多个分析视角,结论还要能进投资决策。单点问答的天花板,正好是投研的下限要求。 这就是我们必须做 Harness 的原因。
第二部分 Harness Agent:投研任务的操作系统 我们把这套 Harness 的中枢,称为 Harness Agent。它的定义是:
Harness Agent = 把多 Agent、多 Skills、多数据源、多阶段任务,装配成一个可控工作流的”任务操作系统”。
它不是一个聊天入口,也不是一个简单的”任务分发器”。它承担六个职能:
职能 通俗解释
1 Problem Framing 问题定义 把模糊需求(“帮我研究下小米”)转成明确问题、研究边界、交付标准 2 Capability Routing 能力路由 根据团队能力地图,把每个子任务派给最合适的专家 Agent 和工具 3 Context Harnessing 上下文装配 把角色设定、用户偏好、历史记忆、研究框架、项目状态,组合成”正确的上下文”喂给每一步 4 State Management 状态管理 用项目目录和状态文件维持进度,而不是靠”对话记忆” 5 Quality Gate 质量关卡 用事实核查、反方机制、批判清单审查每一步的输出 6 Output Compression 产出压缩 把多 Agent 的复杂中间产物,压缩成报告、跟踪看板、决策卡等用户能直接消费的形式 一句话中心主张:
Harness Agent 负责把”任务”变成”流程”;专家 Agent 负责把流程中的”节点”做深;Skills 负责把外部能力封装成”可复用动作”;Memory / State 负责让整个流程”可持续”。
用户端的体验因此变得极简——用户不需要知道背后有哪些 Agent、哪些工具,他只说目标:“研究一个行业""跟踪一个投资假设""生成一份深度报告”。剩下的拆解、派工、调度、审查、汇总,由系统完成。
第三部分 四层架构设计 整套系统从下到上分四层。理解这四层,就理解了我们的 Harness 是怎么搭起来的。
┌─────────────────────────────────────────────────────────┐ │ ④ 方法论层 研究流程 / 行业打法 / 模板卡片 / 思维模型 │ ← 投研的”打法” ├─────────────────────────────────────────────────────────┤ │ ③ 编排调度层 流程守卫 + 编排判断 + 执行 (Harness 核心)│ ← 怎么”跑起来” ├─────────────────────────────────────────────────────────┤ │ ② Agent 人格层 每个专家的灵魂 / 职责 / 能力栈 │ ← 团队是”谁” ├─────────────────────────────────────────────────────────┤ │ ① 系统底座层 容器隔离 / Agent 注册 / 文件与定时机制 │ ← 系统”地基” └─────────────────────────────────────────────────────────┘ 3.1 第①层:系统底座层 这是地基,对外不可见,但决定了系统的边界与隔离。
容器化隔离:每个用户一个独立运行环境,互不可见——隔离靠”物理边界”,不靠权限配置。 Agent 注册中心:一份配置文件登记了全部专家 Agent。每个 Agent = 一个独立工作区 + 一份允许使用的技能清单 + 一份允许调度的下属名单 + 模型选择。“谁能做什么、谁能指挥谁”,在这里被明确定义。 编排权限:系统允许”调度中枢”再往下派活(专业上叫两级派发深度),这是多 Agent 协作能成立的前提。 文件与定时机制:研究产物落在标准目录里、可被前端直接读写预览;定时机制让系统能”自己醒来”做巡检、跑日报。 3.2 第②层:Agent 人格层 我们的系统不是”一个全能 AI”,而是一支有分工的 AI 团队:研究总监、情报官、宏观分析师、TMT 分析师、有色金属分析师、商品分析师、策略分析师、权益研究员、数据分析师、财务分析师、技术分析师、地缘专家……
每个 Agent 有一套**标准化的”人格骨架”**文件:
文件 作用 类比 SOUL.md 这个角色的价值观、判断体系、职责边界 一个人的”三观与专业操守” AGENTS.md 每次工作前必读的协作规范与铁律 “员工手册” TOOLS.md 可用技能的索引与调用方式 “工具箱说明书” MEMORY.md / memory/ 长期记忆与每日工作日志 “笔记本与记事本” IDENTITY.md / USER.md 我是谁、我服务谁 “工牌与客户档案” 举个例子,研究总监的 SOUL.md 里写着这样的判断体系:“问题比答案更值钱""市场风格判断 > 个股判断""周期是一切的底层逻辑""永远不接受’大概率’这个词,除非给出概率数字和置信区间”。这些不是装饰——它们会真实地约束这个 Agent 的每一次决策。
能力栈是三层的,这是理解”团队为什么强”的关键:
层 含义 价值 L0 角色定位 这个 Agent 是谁、负责什么边界(综合型通才 vs 专家型纵深) 避免”一个大模型什么都做”,形成真正的组织分工 L1 方法论 / Reference 研究框架、流程纪律、审查清单(如科技股打法、周期股打法) 把经验固化成流程,不靠临场发挥 L2 可执行 Skills 数据接口、抓取、建模、写作、协作工具 把外部能力封装成可复用的”动作” 所以 Skills 不是”一堆插件的列表”。真正让团队变强的,是 L1 那一层——把投研的方法论和纪律,沉淀成了每个角色随手可调的框架。
3.3 第③层:编排调度层(Harness 的真正核心) 这一层回答:“多个 Agent、多个步骤,到底怎么协同跑起来、还不出乱子?”
我们的核心设计原则只有一句话:
流程由 Runtime(运行时)执行,判断由 Agent 完成。
围绕这句话,编排层分成三个互不越权的角色:
┌────────────────────────────────────────────────┐ │ 流程守卫(Runtime) │ │ · 步骤必须按序执行,前一步没过,后一步起不来 │ │ · 关键节点设”硬关卡”,AI 物理上无法绕过 │ │ · 中断后可凭”续跑令牌”原地恢复 │ │ · 只管”门”,不管研究内容 │ └───────────────────┬────────────────────────────┘ │ 批准后启动 ▼ ┌────────────────────────────────────────────────┐ │ 研究总监(编排者) │ │ · 把研究问题拆成节点,指派给专家 Agent │ │ · 收到产出后评估质量,决定通过 / 要求重做 │ │ · 每次行动前读状态文件、行动后写状态文件 │ │ · 只管”判断与编排”,不亲自下场做研究 │ └───────────────────┬────────────────────────────┘ │ 派单 ▼ ┌────────────────────────────────────────────────┐ │ 执行 Agent(专家) │ │ · 一个会话只做一个节点、一个责任主体、一个产出 │ │ · 用自己的 L1 框架 + L2 工具完成研究 │ │ · 产出写成文件,只向上回一句确认 │ │ · 只管”干活”,不管调度 │ └────────────────────────────────────────────────┘ 为什么要这样分? 因为我们踩过坑。早期版本把所有流程纪律都写成”文字铁律”,靠 AI 自己记住、自觉执行。结果在长任务里必然失败——会话一长,前面的铁律就淡出了模型的注意力;该发的信号漏发,监控链就断了。
根本问题是:让 AI 既负责”做判断和研究”,又负责”记住并执行流程”——这两件事本就该分开。
新设计把它们彻底拆开:
流程外化给 Runtime。步骤依赖、关卡审批,是运行时强制的,不是文字约束,AI 绕不过去。 状态外化给文件。项目进度、每个节点的状态、产出路径,全部写在一份状态文件里——这份文件才是”真相”。即使 AI 的会话中途崩溃,重启后读一遍文件,几秒钟就能完整还原工作状态,完全不依赖”记忆”。 判断才交还给 Agent。这是 AI 真正擅长、也真正有价值的部分。 这一层的设计,直接消灭了单点问答的两大天花板——“会失忆”被状态文件解决,“不可控”被流程守卫解决。
3.4 第④层:方法论层 最上层是投研的”打法”,由一系列 Skill 承载:
常规研究流程:S0–S4 五阶段框架,带”探索↔讨论”的双向循环(详见第五部分)。 重型研究流程:深度研究报告流水线,三段式运行,全程编排(详见第五部分)。 行业打法手册(Playbook):把研究总监的判断哲学落成可量化的判据。比如科技股打法里规定:“机会 = 供需缺口""逻辑已成 + 市场未 price-in + 启动前夜重仓""拐点信号必须按领先/同步/滞后分层使用,不准用滞后信号做前瞻判断”。 输出物五件套:问题准入卡、Thesis 跟踪仪表盘、拐点确认三角卡、Price-in 面板、风险提示卡——每类研究产物都有固定模板,缺一不可。 思维模型路由:39 个思维框架(第一性原理、逆向思维、贝叶斯、系统思考……)的路由表,按”领域 × 问题类型”自动选用。 方法论层的意义在于:它让”研究质量”不再依赖某一个分析师当天的状态,而是依赖一套可复用、可审查、可迭代的框架。
第四部分 核心设计思路(方法论) 如果说第三部分讲的是”架构长什么样”,这一部分讲的是”为什么这么设计”——这是整套 Harness 真正的方法论内核,也是这次分享的重点。
设计思路一:流程与判断解耦 让 AI 只做它最擅长的事——判断;把它不擅长的事——记流程、守纪律——交给确定性的程序。 这是整套架构的第一性原则。一个 AI 不可能既是”运动员”又是”裁判”又是”记分员”,把这三个角色拆开,每一个才都能做好。
设计思路二:状态外化,对抗失忆 “状态即真相”——一切进度以状态文件为准。 对话记忆是不可靠的、会丢失的;文件是可靠的、可恢复的。所以系统的硬性纪律是:“写文件 → 注册落库 → 更新状态”三步缺一不可,未注册 = 不存在,不更新 = 没做过。这条纪律看起来”笨”,但它是整个长流程能跑稳的物理基础。
设计思路三:问题比答案值钱 研究开始前,先过”问题准入”。模糊的需求进来,必须先被加工成一个”真问题”——可证伪、有决策含义、有可验证路径、锁定了预期差、有明确时点窗口。一个好的研究问题可以节省团队三周的无效工作。 任何研究任务,“问题定义”这一步永远由研究总监亲自做,不外包。
设计思路四:产出必落库 研究产出不允许只停留在对话里。 每一个节点的产出都必须写成文件、落进项目目录、署名(写清谁做的、用了什么工具、工具成功还是失败)。这带来三个好处:可审计(每一步都有痕迹)、可恢复(崩了能续)、可复用(下次研究能站在上次的肩膀上)。
设计思路五:质量关卡与反方机制——对”AI 不可信”的治理 这是直接针对”不可信”天花板的设计。系统里有多重质量关卡:
事实核查:报告定稿前逐句核对数据、日期、政策引用。 反方机制:每个核心结论都要经过”魔鬼代言人”的独立反驳——立项时写”两年后这是失败案例的最可能原因”,跟踪期月度复检失败假设清单。 批判清单:每份报告必过五层批判——“哪条假设错了结论就崩?""这个逻辑什么情况下不成立?""结论是不是已经 price-in 了?""持相反观点的人最强论据是什么?” 数据时效戳:任何引用的数据必须带”(数据源,截止日期)“,超期必须刷新,否则视为无效。 一句话:我们不假设 AI 的输出可信,我们用机制去”治理”它,让它必须可信。
设计思路六:角色分工不越界 团队分”综合型”(跨领域通才)和”专家型”(单领域纵深)。派任务有明确的颗粒度规则:先看问题属于哪个行业、有没有对应的专家型 Agent,有就派给专家,没有就派给通才兜底,跨行业横向比较永远派给综合型。错配是大忌——不能把深度行业分析扔给只做情报采集的情报官,不能让处理数字的数据分析师去判断市场风格。分工清晰,质量才有保证。
设计思路七:可扩展与可进化 可扩展:新行业、新工具、新流程,都可以通过”新增一个 Agent”或”新增一个 Skill”接入,不动主干。 可进化:系统有记忆和复盘机制——把错误、纠正、更好的做法持续沉淀。研究做得越多,方法论库越厚,团队越聪明。这是一套”用久了会变强”的系统。 第五部分 两条研究流水线 方法论层提供了两条主流水线,对应两种研究强度。
5.1 常规研究:S0–S4 五阶段框架 适用于日常调研、阶段性分析、问题讨论。五个阶段,带一个关键的双向循环:
S0 立项 ──→ S1 探索 ◄──────┐ │ │ 发现新问题就回炉 ▼ │ S2 讨论 ───────┘ ← “探索↔讨论” Wave 循环 │ ▼ S3 报告 ──→ S4 跟踪校准 ──→ 重大变化 → 回 S1/S2 S0 立项:定义研究问题、范围、初始假设。 S1 探索:广泛搜集信息、提出假设、展开逻辑链(每个假设必须有 A→B→C 的推理链和”证伪条件”)。 S2 讨论:多 Agent 围绕假设深入讨论,一轮叫一个 Wave,每轮产出交用户审核——同意就进下一轮或写报告,发现新问题就回 S1。 S3 报告:逐章撰写、逐章审核、合并成稿。 S4 跟踪校准:持续监控关键变量,事件发生时回检假设——预测了什么、实际发生了什么、逻辑链哪里对/错。被否定的假设沉淀进知识库。 这套框架的精髓是 S1↔S2 的 Wave 循环:研究不是一条直线,而是”探索—讨论—再探索”的螺旋。每一轮都有用户介入的关卡——人的意志永远是最高优先级。
5.2 重型研究:深度研究报告流水线 适用于明确要求”生成一份深度研究报告”的场景。它是第三部分讲的三层编排架构的完整落地,分三段独立运行:
段落 做什么 关卡 Run 1 情报与规划 立项 → 多源情报采集 → 研究总监出研究计划 用户确认研究提纲(全流程唯一人工关卡) Run 2 节点执行 研究总监按计划逐个派节点给专家 Agent,收产出、评质量、定通过/重做 节点全部完成后做”S2 审议”——回答初始问题、逻辑是否闭环、信息是否完备 Run 3 写作与发布 写作编排 → 逐章撰写 → 配图 → 合并 → 全稿修订 → 生成 PDF 终审与发布 分三段的好处:哪一段不满意,只重跑那一段,不用从头再来;每段都能中断续跑。
5.3 怎么选 用户说 走哪条线 “讨论一下""分析一下""帮我研究研究” 常规研究 S0–S4 “生成一份深度研究报告""deep research” 重型研究流水线 “算一下……的概率” 贝叶斯研究流程 “茅台现在 PE 多少” 不立项,直接查直接答 不把简单查询套上重流程,也不让复杂研究跳过流程——这本身就是一条纪律。
第六部分 实战案例 下面三个案例都是系统真实跑出来的完整研究项目,用来说明”这套 Harness 到底能产出什么”。
案例一:澜起科技公司深度研究 任务:“澜起科技深度研究——AI 算力产业链卡位、核心业务逻辑、市场空间、竞争格局、壁垒、客户、远期业绩与一致预期。”
系统做了什么:
S0 研究总监先做功课、向用户问清边界,写成”研究指引”。 Run 1 自动跑了 8 份情报采集(财务数据、行业研报、券商报告、公司一页纸、技术/客户/竞争三个维度的数据召回、网络搜索),TMT 分析师产出预研摘要,研究总监出研究计划。 Run 2 拆成 8 个研究节点逐个执行——公司卡位与 AI 运力叙事、DDR5 基本盘、新品矩阵与第二增长曲线、TAM/SAM 测算、竞争格局壁垒客户、远期业绩模型、估值映射与 Price-in、主线叙事与可证伪跟踪表。其中”市场空间测算”节点还开了多专家会诊。 Run 3 写成 7 章正式报告、配图、合并、生成 PDF。 产出:一份 7 章的完整深度研究报告(含 PDF),外加全程留痕的 89 个中间文件——每个情报源、每个节点、每张图的数据、每次状态变更,都可追溯。
案例二:CPU/存储涨价对 AIDC 影响(行业研究,跑完整 S0–S4) 任务:用户明确要求 TMT 分析师主负责,研究”存储和 CPU 价格上涨对 AIDC 回报率、建设进度及产业链损益的影响”,要求”标的不是重点,核心是产业链机制与阈值测算”,不纳入 GPU。
系统如何把模糊需求变成精确研究——研究总监把它锁定成 5 个”真问题”,例如:
“存储和 CPU 分别涨到什么幅度,会使 AIDC 项目 IRR / 回收期 / 建设意愿发生显著恶化?” “如果云厂商能通过算力租赁或云服务提价转嫁成本,转嫁率需要达到多少才能维持回报率?” “哪些可观测指标能验证本轮涨价是结构性瓶颈而非短期库存周期?”
产出的质量——这是一份能直接进投决讨论的报告。它的执行摘要直接给出了可量化的阈值表:
情景档位 核心硬件价格假设 直接 Capex 增幅 有效转嫁率要求 IRR 综合下降 产业行为映射 温和压力 CPU+10% / 存储+30% 2.01% ≥50% -20~-100bp 核心推进 基准压力 CPU+15% / 存储+50% 3.30% 25%-50% -55~-140bp 梯次分化 显著压力 CPU+20% / 存储+75% 4.87% 0%-25% -80~-180bp 局部延期 建设放缓 CPU+25% / 存储+100% 6.45% <25% -180~-300bp+ 实质放缓(生死线) 报告还纠正了一个市场普遍误判——“市场以非 GPU 底座中 CPU/存储占比超 40% 来推演成本失控,这是严重的感知错位;在真实总 Capex 口径下,三者合计权重仅 8.7%。“这种”反方视角”,正是质量关卡机制的产物。
研究没有结束在报告——项目流转到 S4,生成了一份”跟踪校准仪表盘”,列出 CPU 涨价/交期、DRAM/eSSD 涨价、有效转嫁率、建设延期四个硬指标的当前基线、上修条件、风险报告条件和数据源。也就是说,这份研究是”活的”,会持续被跟踪和校准。
案例三:小米集团投资价值深度研究(多业务拆解) 任务:评估小米是否被低估,覆盖汽车产品线、手机困境、IoT、半导体成本压力、智能驾驶、出海空间,预测期 2026–2030。
系统的处理亮点:
小米是典型的多业务公司,系统先做了”业务拆解”——把汽车、手机、IoT、半导体等业务分别归类研究范式(周期商品 / 结构成长 / 新兴赛道),每个业务单独成研究节点,避免把不同性质的业务混在一起算成一笔糊涂账。 拆成 11 个节点执行,多个节点开了”专家会诊”——比如”智能驾驶与 AI 能力”节点,由科技研究员和权益研究员两个视角分别出意见,研究总监再综合。每次会诊的”主席简报、各专家意见、主席综合”全程留痕。 最终用 SOTP(分部估值) 反推,给出是否低估的判断,外加一章”反方风险与触发器”,并落地到 S4 跟踪仪表盘。 产出:6 章完整报告 + PDF,背后是 90+ 个中间文件、9 个节点会诊记录的完整审计链。
从案例看效果 维度 单点 AI 问答 Harness 系统 输入 反复追问、自己拆解 一句话需求 过程 黑盒,不可控 全程留痕,每步可审计、可恢复 数据 来源不明 每条数据带时效戳和来源 结论 “看起来对” 过事实核查 + 反方机制 + 五层批判 产出 一段文字 多章报告 + PDF + 跟踪看板 + 决策卡 之后 没有”之后” S4 持续跟踪校准,研究是”活的” 耗时 因人而异 半天左右跑完一个完整研究项目 第七部分 价值总结 对管理层和客户,这套 Harness 架构带来的改变可以浓缩成六组词:
客户痛点 系统的改变 背后的能力 研究慢、信息散 一句话发起,系统自动拆解、派工、汇总 Harness Agent + 多 Agent 调度 单个 AI 容易胡说 每个结论过来源核查、反方压测、质量审查 质量关卡机制 投研流程难复用 研究方法、行业框架、数据工具固化成可复用资产 三层能力栈 + 方法论层 长任务会跑偏 流程由运行时强制、状态外化到文件,绝不失忆 流程与判断解耦 团队能力难扩展 新行业 = 新增一个 Agent;新能力 = 新增一个 Skill 可扩展架构 系统会不会越用越笨 记忆、复盘、方法论沉淀,越用越强 进化机制 一句话收尾: