这是一个外资 PE / LO 买方研究员的 AI 投研开发的个人记录与感悟。
这套系统跑在 5,950 文件 vault 之上,是一个 7 层架构 —— 涵盖从原始数据采集、跨源综合、深度研究、到 IC Memo / 卖方报告渲染的全流程闭环
三个相互正交的设计哲学基座:
过去两个月,我用业余时间,以陡峭的学习曲线学习了 LLM、agent harness 相关知识,通过 Claude Code 不断试错迭代,把一套投研 Agent 系统做到了日常生产可用。但我发现这其中核心的价值不是"又一套 skills",它指向两件事:
我的观察:为什么是 research × cowork 这一层
coding 是 AI 落地的"手脚" —— eval 直接、ramp-up 快,自然被最先、最重地投入,这一层已经在快速兑现。但真正专业的工作 —— research 与 professional cowork —— 落在 chatbot 与 coding 之间,是下一块还没被认领的未竟之地。
为什么这一层值得下重注?
这不只是一个更高留存的产品机会,更是一个价值沉淀位置更优的商业机会。
但 AI 产品现在堆了一身功能(Docs / Slides / Sheets 样样齐全),却普遍漏掉了这一层 —— 一个真正的 Professional Cowork Platform。有功能不等于有平台,平台要三件事同时成立:
再往前一步,下一代 Cowork 会从"无状态工具调用"进化到持久化 Agent 池:agent 按行业 / 职能划分、各有 expertise domain,配个体 / 团队 / 组织三层记忆,Orchestrator 从"执行者"变"分配者"。
而现在恰好是一个少见的时间窗口:
这种"三不管地带"不会长期存在 —— 这是我看到的一块被低估的结构性缺口。
→ 完整展开(平台三要件 + 下一代 agent 形态)见 Cowork 平台战略思考 · 被低估的中间层
Harness 是暂时的脚手架,模型的进步是根本
而落到怎么商业化,我最在意的一个判断是 —— 把 AI 落进投研 / 法律 / 医疗这类垂直领域,第一步是建一套让领域专家高效带 AI 迭代试错的基础设施:error log → pattern → gate / benchmark,被 Guide / Hook / Eval 或 human feedback 识别到的错误本身就是资产。
但核心思想还要再近一层 —— skill + hook 这套 harness 终究只是套在模型外面的脚手架,挡得住已知的错,却没有改变模型本身。模型要真正达到专业领域的专家水准,靠的不是更厚的脚手架,而是把这些被归一化的错误,沿 error log → eval → benchmark → 后训练 一路内化、升级进模型自身。脚手架是过渡,模型内化升级才是终点;而新的脚手架随模型能力不断调整,作为模型能力的外延进一步扩展其能力边界。
→ 完整展开(飞轮机制 + FAGB 实例)见 AI Agent 正确的错误是资产 —— 怕的是 not even wrong
系统按"做什么"分层,不按"用哪个模型"分层。Skills 组合成 pipeline,pipeline 组合成最终产物。整套架构跑在四角知识闭环上 —— OneNote ↔ NotebookLM ↔ WebDAV ↔ Obsidian —— 让记忆在 session 之间持久化、相互复利
数据采集层 —— 具体外部数据源。每个 skill 对应一类特定来源:A 股 / 港股 / 美国宏观 / 申万板块 / 期权 / 社交平台 / 公众号 / Capital IQ。任务是把 bytes 落盘,不做分析
基础设施层 —— 提供上层 skill 共享的底层能力:文件路由、通用 web 入口、PDF 获取、LLM 引擎调度、QC 治理、跨 session 多层记忆。这一层不绑定具体数据源,是稳定的运行时基础
四角知识闭环。OneNote 是人类写入端口 —— 笔记自动同步到 Obsidian(全量 vault)、NLM、坚果云(所有 md 云端存储,支持远程读写不需要本地环境)。这是让整套系统感觉像"一直在线的研究助手"的核心。这一层只管知识的存储 / 检索 / 同步,不产出分析
领域专用的监控与情报产出。板块周期扫描、情绪定位、财报点评、快速初查 —— 这一层产出的是结构化分析,但还不是完整的 IC Memo 体量
旗舰层。深度研究、财务建模、IC Memo 生产。每任务 agent 数最多、sub-agent dispatch 最重、workflow 最长 —— 这是"一次性产出完整投资交付物"的工作流
渲染 + 输出后处理层。PPTX(三个品牌模板族)、DOCX(机构模板)、文生图、中文 humanize。所有 deck 渲染都走 5-phase QC:repair → eval → source-clean → layout-validator
Eval 层 —— 高价值交付物的最后一道闸,不产新内容,专门评判前面 6 层产出的对不对。eval 的写法分两级:第一级是机械检查,纯 Python 完成 —— 配平、数值区间、密度 / 版式 / 渲染验证,绝大部分 eval 在这一级以确定性规则跑完;剩下约 20% 才交给 LLM as judge —— 独立 context 语义审查、跨模型对照,处理规则写不出来的判断
把"AI 怎么稳定产出投研产物"这件事拆开,底下有三个不依赖具体模型的基座:Guide / Hook / Eval 解决 agent 行为框架,data validation 解决数据准确性门槛,活 wiki 作为已验证的 fact + thesis truth base,让 agent 下一次任务不用从零开始。三件事彼此正交,缺一个都补不上其他两个。
第一个月最大的错误是想用 prose 锁死 agent 行为。Guide 越写越长,模型越漂越多,补丁越打越乱。后来想明白了:Guide 应该轻,因为它会过期;Eval 应该重,因为结果不会过期。三层架构定义了一个 agent 在 high-stakes 场景下怎么稳定产出 —— 这是整个系统 agent-based 设计的骨架
Guide 应该轻,因为它会过期。Hook 应该硬,因为它编码的是与模型能力无关的业务边界。Eval 应该锐,因为它评判的是最终交付物 —— 这是不随 LLM 演化而变的客观事实 摘自《Guide / Hook / Eval》 · 2026 年 5 月
→ 延伸阅读:Eval 的下一步 —— error log 怎么归纳成 pattern,再变成 skill gate / agentic benchmark / 后训练信号:AI Agent 正确的错误是资产 —— 怕的是 not even wrong
Guide / Hook / Eval 是关于 agent 行为的设计;还有一个同样底层的设计问题:怎么判断一条数据值不值得相信?买方投研里这不是一维 yes / no —— 而是三个互相正交的维度,每一个都不能 cover 另外两个
三个维度相互正交 —— 意味着不能用单一指标概括 trust。Registry 给每条 data point 同时存三个独立标签:tier + as_of + source(s)。下游 skill 引用时按所有三个维度决策。Derived data 走木桶原则继承最差 tier;但时效性和对齐度独立计算,不被 tier 覆盖
所以"为什么这条数据可以进 deck"不再是 LLM 的临场判断 —— 而是 registry 在交付前自动跑的三维检查。这把 data trust 从 ad-hoc judgement 变成了可审计的工程问题。这也是 data-validator 作为 cross-cutting QC 治理放在 L0 的根本原因 —— 它不属于任何业务层,它是每一层都得遵守的物理定律
→ 延伸阅读(含真实 registry schema + 木桶原则示例 + L0 cross-cutting 的工程理由):data-validator 机制 · 三维正交模型
活 wiki 不是"持久化记忆",本质上是一份 fact 集合知识库 + verified thesis truth base —— 经过反复交叉验证、已经 refine 过的事实和结论的整合层(不是材料归档、不是 LLM 记忆)。它有两个用途:(1) 下游任务(生成 deck / 模型 / memo / 调研问题清单)直接拉它做 base,不用每次从零开始;(2) 人可以直接打开阅读,看到当前 thesis / 最近研究动作 / 待追问的问题 / 已识别矛盾的高密度信息流。一份合格的活 wiki 同时服务这两个读者 —— 机器和人共用同一份 truth base
活 wiki 不只是 "存个文件" —— 它是把零散原始材料经过验证 / 对齐 / refine 后,整合成 verified truth + thesis 的那一层。原始材料(visiting record / 卖方研报 / 公众号 / 模型 / 调研笔记)作为raw input持续流入;活 wiki 作为refined output持续生长 —— 中间靠 librarian 的跨源仲裁、健康检查、Q&A 双链等机制做"提纯"
这一层的存在,决定了 agent 跟 LLM context 的关系:临时 context 处理眼前任务,活 wiki 提供持续 refine 的 fact + thesis truth base。RAG / prompt 临场塞资料只能 cover 表层 —— 真正的研究伙伴必须有一份在所有 session 之外都持续生长的 verified truth 集合,让每次新任务都从一个比上次更高的 base 开始。这是为什么没有活 wiki 的 agent 再聪明也只能是工具,有活 wiki 的 agent 才可能成为研究伙伴
→ 具体实现见 §03·a Memory System(四角同步)和 §03·b Librarian(三阶段循环 + 真实活 wiki sample)
Memory 持久化是地基,Librarian 是地基之上的主动大脑,IC Memo Pipeline 是最终产物。每一个都是独立的设计练习 —— 哪些自动化、哪些留给人判断、接缝在哪里
LLM 的 context window 会扩张也会压缩;对话会结束。在 session 之间能持续存在的东西,决定了 agent 感觉像"长期搭档"还是"每天早上要重新介绍一次的工具"。OneNote 是人类写入端口,笔记自动同步到 Obsidian(全量 vault)、NLM、坚果云三个节点
关键洞察不在四个节点本身,而在"写一次就够了"。开会时往 OneNote 写一条 memo,几分钟后 NotebookLM 能跨文档搜到,Obsidian vault 里已经是原子化片段,WebDAV 上有备份。下一个需要这条信息的 agent 直接找到 —— 不需要我再喂一遍
这是后面所有东西的地基。没有持久化记忆,每次 agent run 都从零开始;有了它,每次 session 都在复利
§03·a 的 memory 是被动的 —— 它存。当 vault 文件超过 5,000 之后问题翻转:今天我该看什么?哪些 thesis 过时了?下一步该问什么? Librarian 是一个三阶段循环,把 vault 变成一个真正在工作的分析师助手。每个阶段喂养下一个 —— 而下一轮循环的起点永远比上一轮高一层
visiting record/三阶段循环跑在 §02·b 的三维数据信任模型之上 —— tier / as_of / alignment 三个独立维度,每条 claim 入库就同时标这三个标签。Librarian 在每个阶段都对这三维做检查:
Stage 01 入库:data-validator 给新增 claim 自动 assign tier(T1-T4),绑定 as_of date,记录所有 source。Stage 02 调用:question list 拼接 vault scan 答案时按 tier 排序、按 alignment 加权 —— T3/T4 单源内容标红,提示分析师追问。Stage 03 闭环:新 Q&A 答案先以 T3 候选入库,经后续 health check 反复巡检 + 多源对齐验证后晋级 T2;被新数据推翻则降级
Health check 双层巡检:状态层(TP 过期 / 临近财报 / 价格偏离 / 催化剂到期)+ 跨源冲突层(管理层口径 vs 卖方 forecast / 新研报 vs 旧研报 / 模型数字 vs 公众号披露)。同公司多源冲突按 tier + 时间锚定自动仲裁;真模糊的 gap 主动 raise 给我
质量控制不是交付前那一道单独的检查 —— 它在每一步都在跑,三维都在跑。所以最终的 IC Memo 或 deck 是过程的自然产物,不是事后补救
核心逻辑:极氪高端化突破 + iHEV 切入全球燃油车替代市场 + 出海提速,三条主线同时兑现
一份活的 coverage wiki —— 对一家持仓的当前 working hypothesis。14 段标准结构,从 thesis 到 valuations、key guidance、known truth、recent thesis。每条 claim 都 cross-link 到它来源的 visiting record 或卖方研报
每次新 visiting record 落到 vault,Librarian 的 Stage 1 自动 ingest。Claim 被提取、匹配到现有 thesis 段落、生成 wiki diff 提案。日常信息流(数据更新、新 source ingest、claim 提取)全自动;重要的 thesis 和长期判断的修改需要人工批准。 来源间的冲突主动 raise 出来,不静默覆盖
半年前的 thesis 会随着新数据到来悄悄漂移。Wiki 保持 "我现在相信什么、为什么" 的 current consensus 版本 —— 可审计、源头可追溯、绝不投机
核心逻辑:中国出口量最大的车企,港股上市后(2025-09-25)进入机构覆盖 + 估值重估周期
奇瑞 2025 年 9 月才上市。几乎没有历史卖方覆盖可参考 —— 每条 claim 都得从一手材料(招股书、近期管理层访谈、CapIQ consensus)source-trace 出来
Geely wiki 是 12 个月共识的提炼,这一份更像是仍在 working 的 hypothesis。Bear case 占同等权重 —— 见下面 GPM-drivers 分析,那是最深的担忧:海外护城河本质上是不是个 transition window margin?
| Quarter | GPM | Export % |
|---|---|---|
| FY22 | 14.8% | ~50% |
| FY23 | 16.0% | 50.0% |
| 24Q4 | 10.6% | — |
| 25Q1 | 12.4% | — |
| 25H2 | 14.5% | 47.8% |
| 26Q1 | 16.0% | 65.4% |
"奇瑞 GPM 为什么从 10.6% 五个季度反弹到 16.0%?" —— 一次研究讨论中提出。Librarian 在 Stage 02 拼出答案:拉 AKShare 季度 GPM、三份卖方拆解、一份专家访谈、IPO 招股书
把 +5.4ppt 的变动拆成三个驱动力 —— 但标出来 2.5-3.0ppt(驱动 2)是最高 margin 的出口结构升级。如果这个 mix 不持续,floor 比当前 run-rate 暗示的要低得多
被下方 CICC question list 直接引用 —— Question 0.4 让管理层回答:这是 moat 还是 transition-window margin?
0.1 国内零售 7.38 万被零跑追平 —— 国内为什么落后?
0.2 新能源无爆款 —— 60 款 SUV 内耗、资源分散问题?
0.3 海外护城河本质质疑 —— NEV 转型 vs 燃油车出口窗口期红利?
0.4 海外 vs 国内动力拆分毛利对照 —— 混动 18% / 燃油 10-12% / 纯电个位数 vs 国内 proxy;单车 NI 1-1.1 万 vs 5000-6000 元缺口分析
| 状态 | 数量 | 含义 |
|---|---|---|
| Answered | 13 | CICC 给了清晰可引用数据 |
| Partial | 5 | 提到但未深入 |
| Skipped | 9 | 时间限制未问到 |
| Avoided | 1 | 问了但 CICC 未正面回答 |
LLM 根据我的核心问题自动读取 vault 相关资料,参考 question pool(历史积累的高质量问题模板),衍生提问、填补盲区,生成一份结构化的 key question list。三个版本演化:v1 标准 coverage 问题 → v2 把空头核心 concerns 前置 → v3 把"海外护城河是否实际上是 transition window"作为最深的关切浮上来
对 question list 逐题做 vault 全扫描,附"vault 扫描初步结论"—— 已知什么、源头之间哪里矛盾、值得继续追问什么。产出是一份可打印的会前 briefing,带认知偏差标红
会后逐题状态记录:13 Answered / 5 Partial / 9 Skipped / 1 Avoided。"Avoided"那一题是最有意思的信号 —— 分析师无法或不愿在录音上面回答。逐题回填触发 wiki 级联:新数据更新对应 §,催化剂日历加入时间节点,next-step 从"还缺什么"自动生成
Librarian 是一个连续维护状态的循环;IC Memo Pipeline 是一次性 build。点任意一个 stage 看它跑什么 skill、产出什么 artifact、对应的 eval 抓什么 bug
两个月构建这套系统,让我对 AI 产品格局形成了一个比较强的判断。我做的这套东西不是 chatbot,也不是 coding tool —— 它在两者之间,而这一层在中国市场结构性供给不足
当下 AI 产品市场已经有两条被反复验证的赛道。Chatbot 饱和 —— 每家模型公司每家国内平台都有一个,用户教育早完成了,DAU 漂亮,但工作流沉淀很薄。Coding 工具填充很快 —— Claude Code、Cursor、Cline 证明了用户愿意为任务级生产力付费。但 coding 的价值很容易外溢到 IDE 和编排层,模型成了可替换的算子
真正还没被占住的,是中间那一层 —— 给"非代码的专业工作流"用的产品。人们已经在用 AI 做 earnings review、行业研究、法律 memo、咨询交付、结构化写作。但还没有产品把这些用法承接成 稳定、可复用、可协作、可沉淀的工作流资产
我把这一层叫 Professional Cowork Platform。它和 chatbot 不同(没工作流沉淀),和 coding 也不同(价值不外溢)。它的商业逻辑也不一样:它积累的是工作流资产,留存来自沉淀,用户越用越难离开。这种商业质量,比聊天和代码都要厚得多
Anthropic 的 Cowork 是这个方向最早的尝试之一,但读起来像半成品 —— 更像是为 managed agent 2B 产品试水铺路,顺便做的。中国市场基本是空白:Kimi、文心、通义、豆包都有成熟 chatbot;Kimi Code、通义灵码在填 coding;但真正的 Professional Cowork 没人在做。
我自己两个月的经历就是论据。学 LLM、harness engineering、agent management 一路磕磕绊绊,本科还有点编程老底子才搭完一个个人系统进入"专业工作平台"状态。这是典型的 configure first, value later 路径,对小白用户极不友好。真正对的产品应该把顺序反过来:让用户先直接完成任务,再让系统识别重复 pattern、一键固化成 workflow。这个顺序的反转,才是这个市场最大的机会
再往前一步 —— 下一代 Cowork 的底层会从"无状态工具调用"进化到 持久化 Agent 池:agent 按行业 / 职能划分、有自己的 expertise domain,配个体 / 团队 / 组织三层记忆,技能栈运行中可从"技能市场"加载演进,Orchestrator 从"执行者"变成"分配者"
而把 AI 真正落进投研 / 法律 / 医疗这类垂直领域,核心是建一套让领域专家高效带 AI 迭代试错的基础设施(error log → pattern → gate / benchmark)。现在恰好是一个少见的时间窗口:模型 Agent 能力刚过"白领稳定可用"的门槛,需求被反复验证、但正确的供给还没出现,而国际巨头受合规限制、大厂还没明确押注、纯 2C 模型公司缺中间层 —— 这种"三不管地带"不会长期存在
Docs / Slides / Sheets 这些功能模块 ≠ Cowork。真正的 cowork 平台需要三件事同时成立:workflow 闭环(任务 → 可复用 workflow → 共享模板)、资产归属(输出 / 模板 / context 组织成可携带资产)、协作单元(团队层而不只是单用户)。当下产品有功能,但没平台
当下的 cowork 还是用户驱动 + workflow 沉淀。再往前一步是 persistent agent based —— 系统不止是工作流模板,而是有持久记忆 / 主动跟踪 / 跨 session 状态的 agent,能在你不开机的时候继续替你工作。
把 AI 落进投研 / 法律 / 医疗,核心是建一套让领域专家高效带 AI 迭代试错的基础设施(error log / 归一化 feedback / gate / benchmark)。这正是垂直 AI 商业化的核心。AI Agent 正确的错误是资产 —— 怕的是 not even wrong 完整展开了这套飞轮 + FAGB 实例
完整版:Cowork 平台战略思考
架构深度拆解、设计复盘、以及上文模块的长文版本。点开即可在站内 reader 阅读
欢迎联系,我们可以深入聊聊。这个站点只是我做过的一小部分