一个买方研究员的实践与判断

Research & Professional Cowork —— 下一代 AI 的
key battlefield

这是一个外资 PE / LO 买方研究员的 AI 投研开发的个人记录与感悟。

这套系统跑在 5,950 文件 vault 之上,是一个 7 层架构 —— 涵盖从原始数据采集、跨源综合、深度研究、到 IC Memo / 卖方报告渲染的全流程闭环

65+
活跃 skills
7
架构层
5,950
vault 笔记数
3
Eval 层级 (mech·LLM·cross)

三个相互正交的设计哲学基座:

  • Guide / Hook / Eval 三层 agent 行为框架 —— agent 在 high-stakes 场景下怎么稳定产出
  • data-validator 三维正交(信源 / 时效 / 对齐)—— 防数据幻觉的门槛
  • 活 wiki + verified thesis truth base(librarian 主动维护)—— 已对齐的 fact 集合,下游任务的 base,机器和人都能读

过去两个月,我用业余时间,以陡峭的学习曲线学习了 LLM、agent harness 相关知识,通过 Claude Code 不断试错迭代,把一套投研 Agent 系统做到了日常生产可用。但我发现这其中核心的价值不是"又一套 skills",它指向两件事:

  • 复合背景的专家的稀缺性 —— 金融领域专家 × 已被生产验证的 workflow 工程化能力,恰好是啃下 research 中间层需要的组合
  • Harness & skills 本质还是脚手架 —— 可以拓展模型现有的能力,但在专业领域达到专家水平还需依赖模型自身的迭代进化。而在标准 GHE(Guide / Hook / Eval)框架下跑真实投研,这套实践本身就是一次人类专家 input 的采集:被 Eval 或 human feedback 抓到的每一个错误,经归一化沉淀下来,都能成为反哺模型后训练的养料

我的观察:为什么是 research × cowork 这一层

coding 是 AI 落地的"手脚" —— eval 直接、ramp-up 快,自然被最先、最重地投入,这一层已经在快速兑现。但真正专业的工作 —— research 与 professional cowork —— 落在 chatbot 与 coding 之间,是下一块还没被认领的未竟之地

为什么这一层值得下重注?

  • Coding:模型 = 可替换的算子 —— 开发者天然在 IDE 里形成 hybrid 调用架构,谁强用谁,随模型领先而获客、也随模型落后而流失
  • Cowork:平台 = 持续沉淀资产的容器 —— workflow 嵌进组织的专业流程后,粘性来自 workflow 本身而非模型一时的领先
  • 毛利更健康 —— 同样月付下,白领用户不会像开发者那样激进消耗 token
  • ARR、续费率比 chatbot 更稳、更可预测

这不只是一个更高留存的产品机会,更是一个价值沉淀位置更优的商业机会。

但 AI 产品现在堆了一身功能(Docs / Slides / Sheets 样样齐全),却普遍漏掉了这一层 —— 一个真正的 Professional Cowork Platform有功能不等于有平台,平台要三件事同时成立:

  • workflow 闭环 —— 任务沉淀成可复用 workflow;先价值、后配置,和程序员相反
  • 资产归属 —— 输出 / 模板 / context 组织成可携带资产
  • 协作单元 —— 团队层,而不只是单用户

再往前一步,下一代 Cowork 会从"无状态工具调用"进化到持久化 Agent 池:agent 按行业 / 职能划分、各有 expertise domain,配个体 / 团队 / 组织三层记忆,Orchestrator 从"执行者"变"分配者"。

而现在恰好是一个少见的时间窗口:

  • 模型 Agent 能力刚过"白领稳定可用"的门槛
  • 需求被反复验证,但正确的供给还没出现
  • 国际巨头受合规限制、大厂还没明确押注、纯 2C 模型公司缺中间层

这种"三不管地带"不会长期存在 —— 这是我看到的一块被低估的结构性缺口。

→ 完整展开(平台三要件 + 下一代 agent 形态)见 Cowork 平台战略思考 · 被低估的中间层

Harness 是暂时的脚手架,模型的进步是根本

而落到怎么商业化,我最在意的一个判断是 —— 把 AI 落进投研 / 法律 / 医疗这类垂直领域,第一步是建一套让领域专家高效带 AI 迭代试错的基础设施:error log → pattern → gate / benchmark,被 Guide / Hook / Eval 或 human feedback 识别到的错误本身就是资产

核心思想还要再近一层 —— skill + hook 这套 harness 终究只是套在模型外面的脚手架,挡得住已知的错,却没有改变模型本身。模型要真正达到专业领域的专家水准,靠的不是更厚的脚手架,而是把这些被归一化的错误,沿 error log → eval → benchmark → 后训练 一路内化、升级进模型自身。脚手架是过渡,模型内化升级才是终点;而新的脚手架随模型能力不断调整,作为模型能力的外延进一步扩展其能力边界。

→ 完整展开(飞轮机制 + FAGB 实例)见 AI Agent 正确的错误是资产 —— 怕的是 not even wrong

01 / 系统架构

七个功能层,一套知识闭环

系统按"做什么"分层,不按"用哪个模型"分层。Skills 组合成 pipeline,pipeline 组合成最终产物。整套架构跑在四角知识闭环上 —— OneNote ↔ NotebookLM ↔ WebDAV ↔ Obsidian —— 让记忆在 session 之间持久化、相互复利

数据采集层 —— 具体外部数据源。每个 skill 对应一类特定来源:A 股 / 港股 / 美国宏观 / 申万板块 / 期权 / 社交平台 / 公众号 / Capital IQ。任务是把 bytes 落盘,不做分析

ak-xq-router
A 股 + 港股双源 —— AKShare + 雪球,K 线 / 资金 / 北向 / 内建 consensus
sw-api-router
申万行业指数 —— PE BAND / PB-ROE / Z-score / 股息率 / 跨板块利差
fred-router
美国宏观 —— HY/IG 信用利差、失业率、JOLTS、Sahm Rule
iv-snapshot
期权 IV 实时快照 —— ATM IV / IV Rank / P/C ratio,覆盖 KWEB / TLT / USO / GLD
reddit-research
Reddit 公开 JSON API —— 品牌情绪 + 竞品分析,不用爬虫
mediacrawler-router
小红书 / 微博 / B 站并行采集,输出结构化 JSONL
wechat-research NEW
公众号批量抓取 → 按月合并 PDF → NLM 建库
capital-iq-router NEW
S&P Capital IQ Pro 登录态数据拉取 —— comps、consensus、ownership

基础设施层 —— 提供上层 skill 共享的底层能力:文件路由、通用 web 入口、PDF 获取、LLM 引擎调度、QC 治理、跨 session 多层记忆。这一层不绑定具体数据源,是稳定的运行时基础

cloud-files-router
文件主干道 —— WebDAV + GitHub 索引缓存 1,800 文件,所有 skill 共享的 I/O 入口
web-access
全局联网枢纽 —— CDP 携带 Chrome 登录态绕反爬,内置 WebSearch / Fetch / curl / Jina
web-pdf-fetcher FALLBACK
IR 网站 PDF 终极 fallback,绕过 403 + bot 检测,支持 IR 列表页自动取 PDF
llm-subagent NEW
LLM 引擎调度 —— DeepSeek-V4-Pro / V3 / 火山方舟 ASR,中文长文本 + 录音转写
data-validator
数值溯源 registry —— 跨 slide / 跨文档一致性 + staleness 检查,所有交付前 pipeline 都依赖
session-log + 多层记忆
三层记忆机制 —— MEMORY.md 常驻索引 / memory/topic/ 按需拉取 / session-log/ 跨 session 台账。state 落 disk 不在 context 里,compact 后可恢复

四角知识闭环。OneNote 是人类写入端口 —— 笔记自动同步到 Obsidian(全量 vault)、NLM、坚果云(所有 md 云端存储,支持远程读写不需要本地环境)。这是让整套系统感觉像"一直在线的研究助手"的核心。这一层只管知识的存储 / 检索 / 同步,不产出分析

notebooklm-router-py
直接调用 Google RPC —— 跨文档批量 Q&A,语义检索
report-prep-notebooklm
自动收集 10-K / 10-Q / 业绩说明会 / 卖方研报到 NLM 建库
onenote-nlm-sync
OneNote ↔ NLM 通过 Graph API 同步,GitHub Actions 触发
obsidian-librarian
5,950 文件 Obsidian vault 上的主动研究助手 —— wiki 维护 / 健康检查 / 跨源仲裁
onenote-obsidian-sync NEW
把 OneNote 个人笔记与 Obsidian 原子化片段库打通

领域专用的监控与情报产出。板块周期扫描、情绪定位、财报点评、快速初查 —— 这一层产出的是结构化分析,但还不是完整的 IC Memo 体量

hf-morning-brief
开盘前决策简报 —— 宏观 / 持仓 / IV / 情绪 / 板块 / 日程 六模块
sentiment-cycle
F/N/L/M 四层评分 —— S1 萌芽 → S4 共识分裂的情绪阶段定位
sw-sector-cycle-research
申万行业估值 + leading indicator 追踪框架
earnings-review
Phase A 数字核验 → Phase B 结构化点评,自动 NLM 更新
onenote-quick-research
5 页结构化初查 —— Summary / 业务 / 市场 / 竞争 / 估值,新票快速建档用
serious-answer
三层认知标签 —— ①确认事实 ②我推断 ③我认为,强制 sourcing 纪律

旗舰层。深度研究、财务建模、IC Memo 生产。每任务 agent 数最多、sub-agent dispatch 最重、workflow 最长 —— 这是"一次性产出完整投资交付物"的工作流

deep-research-workflow FLAGSHIP
4 阶段、并行 sub-agent、per-slide RAG、state-machine 可恢复
3-statements-ultra
机构级三表模型,从零开始 —— 公式联动完整,季度 / 半年 / 年频自适应
ic-memo-outliner
规划层 —— thesis tree + 6 段 storyline + 逐 slide outline + data 底稿
visiting-memo
公司调研 / 专家访谈 memo 生成器 —— ASR → 结构化 docx

渲染 + 输出后处理层。PPTX(三个品牌模板族)、DOCX(机构模板)、文生图、中文 humanize。所有 deck 渲染都走 5-phase QC:repair → eval → source-clean → layout-validator

ic-pptx
机构级 IC Memo PPT 渲染器 —— Pattern A–L,5-phase QC
acme-slides-creator-json
JSON SSOT → 浅色商务 deck,品牌字体锁定
navy-slides-creator-json
JSON SSOT → 深蓝机构 deck 变体
docx skill
docx-js 路径生产机构 Word
gpt-imagegen
GPT Imagine 2 CDP 文生图 + 自动下载,批量 deck 插图
pptx-template-analyzer
上传 .pptx 母版 → 自动解析 layout → 生成模板校准补丁
humanizer-zh NEW
中文输出后处理 —— 剥离 AI 写作 pattern("值得注意的是"等)

Eval 层 —— 高价值交付物的最后一道闸,不产新内容,专门评判前面 6 层产出的对不对。eval 的写法分两级:第一级是机械检查,纯 Python 完成 —— 配平、数值区间、密度 / 版式 / 渲染验证,绝大部分 eval 在这一级以确定性规则跑完;剩下约 20% 才交给 LLM as judge —— 独立 context 语义审查、跨模型对照,处理规则写不出来的判断

deck-eval-router
统一路由 PPTX / HTML deck QC(repair → eval → source-clean → layout-validator)
pptx-eval
PPTX 真实性验证 —— PowerPoint COM 打开、catch 修复对话框、抓渲染异常
pptx-repair
PPTX 自检 + auto-fix gate —— 过 eval 前的预处理,抓十几种已知渲染 bug
density-eval
slide 密度 9-grid eval(HTML / PPTX 通用),slide 生产末尾自动调用
check
通用 diff 审查 + 自动修复 + 大改派遣 specialist reviewer
codex:codex-rescue
Codex 跨模型审查 —— 同模型 self-eval 抓不到的盲区在这里补
这套架构跑出来的真实 artifacts
PPTX
AAPL · HF Investment Case
买方 IC deck · PPTX —— 5-phase QC、Codex 把关
DOCX
AAPL · 买方 Memo
决策导向长文版本,与 deck 共享 thesis
DOCX
AAPL · 卖方 Full Report
分析师向长文 —— 同 workflow、不同受众
DOCX
Netflix · Initiating Coverage
deep-research-workflow 全流程产出 · 卖方 Full Report
DOCX
Netflix · HF Investment Case
买方 memo · 决策导向短文版
DOCX
Netflix · PM Question Responses
基于已建 corpus 逐题点对点回答 PM 问题
PPTX
Acme Semis · Initiating Coverage
acme 模板族示例 —— JSON SSOT → 浅色商务 deck
02 / 设计哲学

三个基座,互相正交

把"AI 怎么稳定产出投研产物"这件事拆开,底下有三个不依赖具体模型的基座:Guide / Hook / Eval 解决 agent 行为框架,data validation 解决数据准确性门槛,活 wiki 作为已验证的 fact + thesis truth base,让 agent 下一次任务不用从零开始。三件事彼此正交,缺一个都补不上其他两个。

02 · a — Agent 行为框架

三层架构 —— 把会过期的和不会过期的分开

第一个月最大的错误是想用 prose 锁死 agent 行为。Guide 越写越长,模型越漂越多,补丁越打越乱。后来想明白了:Guide 应该轻,因为它会过期;Eval 应该重,因为结果不会过期。三层架构定义了一个 agent 在 high-stakes 场景下怎么稳定产出 —— 这是整个系统 agent-based 设计的骨架

Layer A · 轻

Guide

指方向,不锁路径。更强的模型可以直接绕开
内化人类经验 —— 踩过的坑、工作流骨架、session 边界 —— 但不锁死每一步。Guide 超过 500 行,LLM 读完前 5 页就忘了后面。

真实例子 · IC Memo Outliner

180 行主入口 + 12 份按需加载的 phase 专属 reference。允许 drift —— 有时候 LLM 漂出来的路径反而比预设的更好(比如发现数据不支持原计划的某个论点,主动回头调整论点结构再继续)

反例

有个老 skill 是单文件 monolithic guide。输出 checklist 合规率明显偏低 —— 后半段规则被忽略是常态。改成"薄主入口 + 按需 reference"之后,合规率明显上来。修复点不是"加更多规则",是"任一时刻减少 LLM 要消化的表面积"

Layer B · 硬

Hook

绝对护栏。PreToolUse 拦截、exit 2、不可绕过
编码业务铁律 —— 不随模型版本变化的硬规则。硬编码路径、禁用 API、必跑的 preflight 检查。一个成熟 skill 的 hook 数应该是个位数,且 self-gated。

真实 hook · eps_yfinance_guard.py

# 拦截 A 股 / 港股 ticker 调用 yfinance.forwardPE # 实测偏差:BYD 35%、Changan 66% if ticker.endswith((".SS", ".SZ", ".HK")) \ and "forwardPE" in code: sys.stderr.write("BLOCKED. 走 ak-xq consensus.") sys.exit(2)

为什么需要这条

某次脚本通过 yfinance 拉了 BYD 的 FwdPE,把 12 个 cell 写进模型。偏差 35%。三周后另一个 agent 走同样路径,被这条 hook 拦下来 —— 这就是 hook 的价值:业务铁律编码一次,未来所有 agent 都受这条规则约束

Layer C · 抗腐

Eval

结果导向 · 强通用性
最重要的一层,因为它评判的是"最终交付物对不对"—— 这跟"用哪个模型"无关。所以它跨模型版本最抗腐:新模型上线、Guide 可能要重写,但 Eval 主要做小修补。这就是它的强通用性。

财务模型的 5 层 eval stack

L0 机械 BS 配平 · IS 重述 · CF 收口 ~50ms L1 独立同模型 fresh-context Claude 语义检查 ~12s L2 跨模型 Codex / GPT-5.4 —— 不同 prior ~25s L3 备份跨模型 L2 不可用时降级 DeepSeek-V4-Pro ~18s L4 合并裁决 三方 verdict 汇总

实测收益

加上 L2 跨模型这一层,缺陷捕获率明显上来。最常抓的是"机械求和对得上、但比率明显不合常识"那一类 —— 同模型 review 会接受"加总对了",跨模型会 push back "ratio 不合理"

Guide 应该轻,因为它会过期。Hook 应该硬,因为它编码的是与模型能力无关的业务边界。Eval 应该锐,因为它评判的是最终交付物 —— 这是不随 LLM 演化而变的客观事实 摘自《Guide / Hook / Eval》 · 2026 年 5 月

→ 延伸阅读:Eval 的下一步 —— error log 怎么归纳成 pattern,再变成 skill gate / agentic benchmark / 后训练信号:AI Agent 正确的错误是资产 —— 怕的是 not even wrong

02 · b — 数据信任模型

金融信息的三维正交评估

Guide / Hook / Eval 是关于 agent 行为的设计;还有一个同样底层的设计问题:怎么判断一条数据值不值得相信?买方投研里这不是一维 yes / no —— 而是三个互相正交的维度,每一个都不能 cover 另外两个

维度 01

信源质量 tier

这条数据来自哪里 —— 决定了它的可信天花板
  • T1 一手硬数据 —— 招股书 / 年报 / 季报 / 官方公告
  • T2 已验证 vendor —— Capital IQ / yfinance / AKShare 等 vendor 直接输出的非预测字段
  • T3 Forecast / 共识 / 单源 web —— 卖方一致预期、Bloomberg 共识(≥ 2 underlying)、公众号披露、单一调研口径
  • T4 单源 DR 推断 —— 必须 footnote 标注,不能进交付物正文
维度 02

时效性 as_of

这条数据是什么时候的 —— 再硬的数据过期了也得降级
  • 每条 data point 入库就绑定 as_of date
  • 交付前 gate check 比对当前 vintage 要求;过期 data point 自动 flag —— 哪怕原本是 T1,也降级或下架
  • as_of 独立于 tier 计算(T1 + stale 仍然 fail),三维不互相 cover
维度 03

交叉验证 alignment

有多少独立来源在说同一件事 —— 单源数据天然打折
  • 单一 source 即使是 T1 也保留怀疑(口径 / 时间窗 / 错位可能)
  • 多源对齐 → trust 显著提升;多源冲突 → 按 tier + 时间锚定仲裁
  • 买方 alpha 经常藏在同事实多源口径不一致的 gap 里 —— gap 本身就是研究入口
data-validator registry 的设计思考

三个维度相互正交 —— 意味着不能用单一指标概括 trust。Registry 给每条 data point 同时存三个独立标签:tier + as_of + source(s)。下游 skill 引用时按所有三个维度决策。Derived data 走木桶原则继承最差 tier;但时效性和对齐度独立计算,不被 tier 覆盖

所以"为什么这条数据可以进 deck"不再是 LLM 的临场判断 —— 而是 registry 在交付前自动跑的三维检查。这把 data trust 从 ad-hoc judgement 变成了可审计的工程问题。这也是 data-validator 作为 cross-cutting QC 治理放在 L0 的根本原因 —— 它不属于任何业务层,它是每一层都得遵守的物理定律

→ 延伸阅读(含真实 registry schema + 木桶原则示例 + L0 cross-cutting 的工程理由):data-validator 机制 · 三维正交模型

02 · c — Verified Fact & Thesis Truth Base

活 wiki —— 一个 fact 集合知识库 + verified thesis truth base

活 wiki 不是"持久化记忆",本质上是一份 fact 集合知识库 + verified thesis truth base —— 经过反复交叉验证、已经 refine 过的事实和结论的整合层(不是材料归档、不是 LLM 记忆)。它有两个用途:(1) 下游任务(生成 deck / 模型 / memo / 调研问题清单)直接拉它做 base,不用每次从零开始;(2) 人可以直接打开阅读,看到当前 thesis / 最近研究动作 / 待追问的问题 / 已识别矛盾的高密度信息流。一份合格的活 wiki 同时服务这两个读者 —— 机器和人共用同一份 truth base

用途 A · 机器

下游任务的 Truth Base

不用每次从零开始 —— 生成 deck / 模型 / memo 直接拉
  • 每条 claim cross-link 到源 visiting record / 卖方研报,全程可追溯
  • 数字带 tier + as_of + sources 三维标签,下游 gate check 自动跑三维验证
  • 不依赖 prompt 临场塞资料 —— skill 引用 wiki 即引用 verified truth
用途 B · 人

可直接读的 信息流

打开 wiki 一眼看到"我们当前怎么看",不是旧 snapshot
  • 14 段标准结构:Bull / Bear / Tail Risk / Key Guidance / Known Truth / 近期 Thesis 等
  • §4 Key Take-Away 每天滚动聚合 7 桶(研究 / 公告 / 卖方 / 纪要 / 新闻 / 监管 / 竞品动态)
  • 估值段每天按最新股价实时缩放;催化剂日历持续巡查;矛盾点显式标红
机制 · 越积越厚

Base 复利 —— Compound

每次研究都把下次任务的 base 抬高一层
  • 四角同步(OneNote ↔ NLM ↔ WebDAV ↔ Obsidian)确保 fact 集合不丢
  • Q&A 双链:今天的答案归档 + 更新 wiki,明天 vault scan 起点已抬高
  • 三个季度后,wiki 不再是材料汇总,而是反复验证的 verified thesis truth 集合
为什么这是哲学层面的基座

活 wiki 不只是 "存个文件" —— 它是把零散原始材料经过验证 / 对齐 / refine 后,整合成 verified truth + thesis 的那一层。原始材料(visiting record / 卖方研报 / 公众号 / 模型 / 调研笔记)作为raw input持续流入;活 wiki 作为refined output持续生长 —— 中间靠 librarian 的跨源仲裁、健康检查、Q&A 双链等机制做"提纯"

这一层的存在,决定了 agent 跟 LLM context 的关系:临时 context 处理眼前任务,活 wiki 提供持续 refine 的 fact + thesis truth base。RAG / prompt 临场塞资料只能 cover 表层 —— 真正的研究伙伴必须有一份在所有 session 之外都持续生长的 verified truth 集合,让每次新任务都从一个比上次更高的 base 开始。这是为什么没有活 wiki 的 agent 再聪明也只能是工具,有活 wiki 的 agent 才可能成为研究伙伴

→ 具体实现见 §03·a Memory System(四角同步)和 §03·b Librarian(三阶段循环 + 真实活 wiki sample)

03 / 模块拆解 · 配 samples

撑起这套系统的三个模块

Memory 持久化是地基,Librarian 是地基之上的主动大脑,IC Memo Pipeline 是最终产物。每一个都是独立的设计练习 —— 哪些自动化、哪些留给人判断、接缝在哪里

03 · a — Memory System

一个持久化的第二大脑,不只是聊天记录

LLM 的 context window 会扩张也会压缩;对话会结束。在 session 之间能持续存在的东西,决定了 agent 感觉像"长期搭档"还是"每天早上要重新介绍一次的工具"。OneNote 是人类写入端口,笔记自动同步到 Obsidian(全量 vault)、NLM、坚果云三个节点

OneNote
个人笔记 · 会议纪要
NotebookLM
语义检索 · 跨 transcript Q&A
WebDAV(坚果云)
工作文档 · 模型 · deck
Obsidian vault
5,950 文件原子化片段库
four-corner
sync loop

关键洞察不在四个节点本身,而在"写一次就够了"。开会时往 OneNote 写一条 memo,几分钟后 NotebookLM 能跨文档搜到,Obsidian vault 里已经是原子化片段,WebDAV 上有备份。下一个需要这条信息的 agent 直接找到 —— 不需要我再喂一遍

这是后面所有东西的地基。没有持久化记忆,每次 agent run 都从零开始;有了它,每次 session 都在复利

03 · b — Librarian

从记忆系统升级到主动研究助手

§03·a 的 memory 是被动的 —— 它存。当 vault 文件超过 5,000 之后问题翻转:今天我该看什么?哪些 thesis 过时了?下一步该问什么? Librarian 是一个三阶段循环,把 vault 变成一个真正在工作的分析师助手。每个阶段喂养下一个 —— 而下一轮循环的起点永远比上一轮高一层

Stage 01

搭建 & 维护

一个活的 coverage wiki,跨源仲裁内嵌其中
  • 每家公司 14 段标准 wiki —— 每条 claim 都 cross-link 到源 visiting record
  • §3 估值实时缩放 —— 每天按最新股价对模型估值整体缩放;模型本身季度更新一次
  • §4 Key Take-Away · 7 桶聚合 —— 研究活动 / 公告 / 卖方研报 / 会议纪要 / 新闻 / 监管 / 竞品动态
  • 每天对 focus list 跑 4 类 WebSearch query(company news / regulatory / competitor / announcement)—— 一个永远不会忘记跑搜索的 junior RA
  • 两层健康检查:状态巡查(TP 过期、临近财报、股价偏离 TP 过大),再做跨源冲突扫描
  • 跨源仲裁按 source tier(A vs B)+ 时间锚定;判不准的不强选,主动 raise 给人
Stage 2A

Question List

LLM 基于核心问题 + question pool 自动生成提问清单
  • 读取核心问题 + vault 相关资料 —— 基于研究焦点和当前假设,LLM 自动定位相关材料
  • 参考 question pool —— 历史积累的高质量问题模板,按场景(会前 / 财报 / 调研)分类复用
  • 自动衍生提问 —— 填补盲区,产出一份结构化、有优先级的 key question list
Stage 2B

会前 Prep

对 question list 逐题做 vault 全扫描,生成会前 briefing
  • Question list → vault 全扫:每个问题下方自动附"vault 扫描初步结论",从纪要 / 研报 / 模型 / 公众号里跨源拼接
  • 跨源综合 —— 散布在不同时间、不同来源的证据被拼成一张完整画面,像高级分析师会前做的功课
  • 认知偏差主动纠偏:当你的假设("FX 收益近 100 亿")和 vault 真实数据("管理层口径全年 27 亿")不一致,会前就被标红了 —— 在会上才发现就晚了
  • 已知事实 / 已知矛盾 / 建议追问方向逐题附下
  • 产出是一份可打印的会前 briefing,不是一堆搜索结果
Stage 03

闭环 & 复利

会后:归档、回填、级联更新,把下次的起点抬高
  • 录音 → ASR 转写 → 结构化纪要归档到 visiting record/
  • 逐题回填:每题对应回答 + 来源 + 日期 + 状态标签 —— asked / partial / skipped / avoided / contradicted
  • wiki 级联更新:新数据更新对应段落;Key Take-Away 刷新;催化剂日历加入分析师提到的时间节点
  • Next steps 自动生成,来自"还缺什么" —— 下次该问什么、要验证什么、要监控什么
  • Q&A 双链复利:今天的答案先以 T3 候选信源 入库;经多次验证(health check 定期巡检 + 跨源比对 + 后续 vault scan 引用率)才晋级到 T2 / T1。只有验证过的内容才成为明天 vault scan 的 baseline context —— 每轮循环 question list 起点更高,但起点必须是已验证的
每轮循环把下一轮的起点抬高(验证过的部分)
三个阶段下面的底层基质

三阶段循环跑在 §02·b 的三维数据信任模型之上 —— tier / as_of / alignment 三个独立维度,每条 claim 入库就同时标这三个标签。Librarian 在每个阶段都对这三维做检查:

Stage 01 入库:data-validator 给新增 claim 自动 assign tier(T1-T4),绑定 as_of date,记录所有 source。Stage 02 调用:question list 拼接 vault scan 答案时按 tier 排序、按 alignment 加权 —— T3/T4 单源内容标红,提示分析师追问。Stage 03 闭环:新 Q&A 答案先以 T3 候选入库,经后续 health check 反复巡检 + 多源对齐验证后晋级 T2;被新数据推翻则降级

Health check 双层巡检:状态层(TP 过期 / 临近财报 / 价格偏离 / 催化剂到期)+ 跨源冲突层(管理层口径 vs 卖方 forecast / 新研报 vs 旧研报 / 模型数字 vs 公众号披露)。同公司多源冲突按 tier + 时间锚定自动仲裁;真模糊的 gap 主动 raise 给我

质量控制不是交付前那一道单独的检查 —— 它在每一步都在跑,三维都在跑。所以最终的 IC Memo 或 deck 是过程的自然产物,不是事后补救

这套循环的真实产出 —— 每阶段一份
Holdings Wiki · Coverage

Geely.md — 吉利汽车 / 0175.HK

更新于 2026-05-14 · 自动综合自 12 份 visiting records
Stage 01 output
摘录 · §1.1 Bull Case
1.1 Bull Case

核心逻辑:极氪高端化突破 + iHEV 切入全球燃油车替代市场 + 出海提速,三条主线同时兑现

  1. 极氪品牌基因确认 —— 9X / 8X 双爆款验证团队、产品、渠道三要素齐备。9X 单车利润 7-8 万元、8X 约 4-5 万元(GPM >38%),对标 BBA 30-50 万区间。← visiting record · 2026-04-21 卖方分析师交流
  2. iHEV 差异化第二牌 —— 全球年销约 9000 万台,5000-6000 万仍是传统燃油车。吉利 iHEV 可切入丰田 HEV 主导的全球市场。← BOCI 分享 · 2026-04-30
  3. 出海提速 —— Q1 出口 +126%,全年目标 75 万辆,轻资产 + 合作伙伴双轨。← 26Q1 post call · 2026-04-30
这是什么

一份活的 coverage wiki —— 对一家持仓的当前 working hypothesis。14 段标准结构,从 thesis 到 valuations、key guidance、known truth、recent thesis。每条 claim 都 cross-link 到它来源的 visiting record 或卖方研报

怎么生成的

每次新 visiting record 落到 vault,Librarian 的 Stage 1 自动 ingest。Claim 被提取、匹配到现有 thesis 段落、生成 wiki diff 提案。日常信息流(数据更新、新 source ingest、claim 提取)全自动;重要的 thesis 和长期判断的修改需要人工批准。 来源间的冲突主动 raise 出来,不静默覆盖

为什么重要

半年前的 thesis 会随着新数据到来悄悄漂移。Wiki 保持 "我现在相信什么、为什么" 的 current consensus 版本 —— 可审计、源头可追溯、绝不投机

4 条 Bull · 5 条 Bear · 3 条 Tail Risk · 12 条 cross-link 打开完整 wiki →
Holdings Wiki · Coverage

Chery.md — 奇瑞汽车 / 9973.HK

更新于 2026-05-13 · IPO 后机构覆盖 + 估值重估周期跟踪
Stage 01 output
摘录 · §1.1 Bull Case
1.1 Bull Case

核心逻辑:中国出口量最大的车企,港股上市后(2025-09-25)进入机构覆盖 + 估值重估周期

  1. 出海绝对量领先 —— 2026 年出海体量目标 160-180 万辆,海外占比远高于国内。中东、南美、俄罗斯渗透深。← BOC 专家访谈
  2. 盈利增长确定性 —— FY25 NI GAAP 2,647 USD mn (+35% YoY); consensus FY26E 2,875 (+9%)
  3. 多品牌矩阵 —— 奇瑞 / 星途 / iCAR / 智界(华为合作),覆盖大众到高端全价位
  4. NI margin 优于 Geely —— FY26E 5.5% vs Geely 4.9%
为什么这份比普通 wiki 更值得讲

奇瑞 2025 年 9 月才上市。几乎没有历史卖方覆盖可参考 —— 每条 claim 都得从一手材料(招股书、近期管理层访谈、CapIQ consensus)source-trace 出来

和 Geely 的不同

Geely wiki 是 12 个月共识的提炼,这一份更像是仍在 working 的 hypothesis。Bear case 占同等权重 —— 见下面 GPM-drivers 分析,那是最深的担忧:海外护城河本质上是不是个 transition window margin?

cross-link 到 8 份 visiting records · 3 份卖方研报 · CapIQ consensus 打开完整 wiki →
任务级辅助 · 跨源综合

Chery GPM Drivers — 五个季度从 10.6% 反弹到 16.0%

2026-05-11 · 综合自卖方研报 + 专家访谈 + AKShare
Stage 02 output
摘录 · §1-2 定量拆解
季度 GPM 走势
QuarterGPMExport %
FY2214.8%~50%
FY2316.0%50.0%
24Q410.6%
25Q112.4%
25H214.5%47.8%
26Q116.0%65.4%
三个驱动力 —— 定量拆解
  1. 出口占比从"高"到"极高" —— 贡献约 1.0-1.3ppt
  2. 海外动力结构升级 —— 贡献约 2.5-3.0ppt
  3. 规模效应 + 成本下行 —— 贡献约 1.0-1.5ppt
这份回答的问题

"奇瑞 GPM 为什么从 10.6% 五个季度反弹到 16.0%?" —— 一次研究讨论中提出。Librarian 在 Stage 02 拼出答案:拉 AKShare 季度 GPM、三份卖方拆解、一份专家访谈、IPO 招股书

非显而易见的发现

把 +5.4ppt 的变动拆成三个驱动力 —— 但标出来 2.5-3.0ppt(驱动 2)是最高 margin 的出口结构升级。如果这个 mix 不持续,floor 比当前 run-rate 暗示的要低得多

它链接到什么

被下方 CICC question list 直接引用 —— Question 0.4 让管理层回答:这是 moat 还是 transition-window margin?

7 个 source · 1 份定量拆解 · 3 条 caveat 打开完整分析 →
会前 briefing → 会后闭环

CICC 分析师交流 — question list + vault 扫描答案 + 会后状态追踪

v3.1 · 准备日期 2026-05-11 · 交流 2026-05-13 · 28 个问题、4 个优先级
Stage 02 + 03
摘录 · §0 空头核心 concerns + 会后状态
§0 Reality-check(前置必问)

0.1 国内零售 7.38 万被零跑追平 —— 国内为什么落后?

0.2 新能源无爆款 —— 60 款 SUV 内耗、资源分散问题?

0.3 海外护城河本质质疑 —— NEV 转型 vs 燃油车出口窗口期红利?

0.4 海外 vs 国内动力拆分毛利对照 —— 混动 18% / 燃油 10-12% / 纯电个位数 vs 国内 proxy;单车 NI 1-1.1 万 vs 5000-6000 元缺口分析

会后状态(2026-05-13)
状态数量含义
Answered13CICC 给了清晰可引用数据
Partial5提到但未深入
Skipped9时间限制未问到
Avoided1问了但 CICC 未正面回答
Stage 2A —— question list

LLM 根据我的核心问题自动读取 vault 相关资料,参考 question pool(历史积累的高质量问题模板),衍生提问、填补盲区,生成一份结构化的 key question list。三个版本演化:v1 标准 coverage 问题 → v2 把空头核心 concerns 前置 → v3 把"海外护城河是否实际上是 transition window"作为最深的关切浮上来

Stage 2B —— 会前 prep

对 question list 逐题做 vault 全扫描,附"vault 扫描初步结论"—— 已知什么、源头之间哪里矛盾、值得继续追问什么。产出是一份可打印的会前 briefing,带认知偏差标红

Stage 03 —— 会后闭环

会后逐题状态记录:13 Answered / 5 Partial / 9 Skipped / 1 Avoided。"Avoided"那一题是最有意思的信号 —— 分析师无法或不愿在录音上面回答。逐题回填触发 wiki 级联:新数据更新对应 §,催化剂日历加入时间节点,next-step 从"还缺什么"自动生成

28 个问题分 4 个优先级 · 会前 prep + 会后状态追踪 打开完整 question list →
03 · c — IC Memo Pipeline

六个阶段,从原始 filings 到一份完成的 deck

Librarian 是一个连续维护状态的循环;IC Memo Pipeline 是一次性 build。点任意一个 stage 看它跑什么 skill、产出什么 artifact、对应的 eval 抓什么 bug

Phase 0
原始 filings
report-prep-nlm
Phase 1
NLM ingest
notebooklm-router-py
Phase 2
Outliner
ic-memo-outliner
Phase 3
Data registry
data-validator
Phase 4
Renderer
ic-pptx
Phase 5
Eval gates
5-phase QC + Codex
04 / Commercial Perspective

被低估的中间一层:Professional Cowork Platform

两个月构建这套系统,让我对 AI 产品格局形成了一个比较强的判断。我做的这套东西不是 chatbot,也不是 coding tool —— 它在两者之间,而这一层在中国市场结构性供给不足

当下 AI 产品市场已经有两条被反复验证的赛道。Chatbot 饱和 —— 每家模型公司每家国内平台都有一个,用户教育早完成了,DAU 漂亮,但工作流沉淀很薄。Coding 工具填充很快 —— Claude Code、Cursor、Cline 证明了用户愿意为任务级生产力付费。但 coding 的价值很容易外溢到 IDE 和编排层,模型成了可替换的算子

真正还没被占住的,是中间那一层 —— 给"非代码的专业工作流"用的产品。人们已经在用 AI 做 earnings review、行业研究、法律 memo、咨询交付、结构化写作。但还没有产品把这些用法承接成 稳定、可复用、可协作、可沉淀的工作流资产

我把这一层叫 Professional Cowork Platform。它和 chatbot 不同(没工作流沉淀),和 coding 也不同(价值不外溢)。它的商业逻辑也不一样:它积累的是工作流资产,留存来自沉淀,用户越用越难离开。这种商业质量,比聊天和代码都要厚得多

Anthropic 的 Cowork 是这个方向最早的尝试之一,但读起来像半成品 —— 更像是为 managed agent 2B 产品试水铺路,顺便做的。中国市场基本是空白:Kimi、文心、通义、豆包都有成熟 chatbot;Kimi Code、通义灵码在填 coding;但真正的 Professional Cowork 没人在做。

我自己两个月的经历就是论据。学 LLM、harness engineering、agent management 一路磕磕绊绊,本科还有点编程老底子才搭完一个个人系统进入"专业工作平台"状态。这是典型的 configure first, value later 路径,对小白用户极不友好。真正对的产品应该把顺序反过来:让用户先直接完成任务,再让系统识别重复 pattern、一键固化成 workflow。这个顺序的反转,才是这个市场最大的机会

再往前一步 —— 下一代 Cowork 的底层会从"无状态工具调用"进化到 持久化 Agent 池:agent 按行业 / 职能划分、有自己的 expertise domain,配个体 / 团队 / 组织三层记忆,技能栈运行中可从"技能市场"加载演进,Orchestrator 从"执行者"变成"分配者"

而把 AI 真正落进投研 / 法律 / 医疗这类垂直领域,核心是建一套让领域专家高效带 AI 迭代试错的基础设施(error log → pattern → gate / benchmark)。现在恰好是一个少见的时间窗口:模型 Agent 能力刚过"白领稳定可用"的门槛,需求被反复验证、但正确的供给还没出现,而国际巨头受合规限制、大厂还没明确押注、纯 2C 模型公司缺中间层 —— 这种"三不管地带"不会长期存在

三层 AI 产品图
Chatbot 饱和 · 沉淀薄
Coding 填充中 · 价值外溢
Cowork 结构性空缺 · 本文论点
"有功能"不等于"有平台"

Docs / Slides / Sheets 这些功能模块 ≠ Cowork。真正的 cowork 平台需要三件事同时成立:workflow 闭环(任务 → 可复用 workflow → 共享模板)、资产归属(输出 / 模板 / context 组织成可携带资产)、协作单元(团队层而不只是单用户)。当下产品有功能,但没平台

下一代形态:持久化 agent

当下的 cowork 还是用户驱动 + workflow 沉淀。再往前一步是 persistent agent based —— 系统不止是工作流模板,而是有持久记忆 / 主动跟踪 / 跨 session 状态的 agent,能在你不开机的时候继续替你工作。

垂直领域怎么落地

把 AI 落进投研 / 法律 / 医疗,核心是建一套让领域专家高效带 AI 迭代试错的基础设施(error log / 归一化 feedback / gate / benchmark)。这正是垂直 AI 商业化的核心。AI Agent 正确的错误是资产 —— 怕的是 not even wrong 完整展开了这套飞轮 + FAGB 实例

完整论证

完整版:Cowork 平台战略思考

延伸阅读

沿途写下的那些文章

架构深度拆解、设计复盘、以及上文模块的长文版本。点开即可在站内 reader 阅读

2026
05·16
AI Agent 正确的错误是资产 —— 怕的是 not even wrong
能被清楚指认的失败是资产(迭代 skill / 做成 benchmark / 反哺后训练);可怕的是 not even wrong —— 没尺子量、连专家都不收敛的失败。含 FAGB benchmark 实例
2026
05·15
data-validator 机制 —— 金融数据信任的三维正交模型
§02·b 的长文版。tier / as_of / alignment 三个正交维度,registry schema 设计,为什么 cross-cutting QC 放在 L0
2026
05·13
AI Agent 三层架构 —— Guide / Hook / Eval
本站围绕这一篇展开。为什么 Guide 应该轻、Eval 应该重
2026
05·12
Claude Code Skills Network —— 视觉架构图(65+ skills)
九层架构、七条核心数据流、六个 eval 域。跨 skill 协调。
2026
05·11
Librarian 升级 —— 从记忆系统到主动投研助手
§03·b 的长文版本 —— 三阶段循环 + 某 OEM onboarding 全生命周期案例。
2026
04·14
Claude Code 投研工作站架构 v2.0
六层架构、~45 个 active skill、四角知识闭环。系统的 canonical map。
2026
04·19
Cowork 平台战略思考 —— 被低估的中间层
§04 的长文版。Chatbot 饱和 / Coding 价值外溢 / Cowork 结构性空缺,以及下一代持久化 agent 形态
2026
04·14
用 Obsidian 构建持久化的投研记忆系统
为什么 context window 不够。原子化笔记 + cross-link + 每日复盘怎么复利
2026
04·06
从 Cowork 到 Claude Code —— 工作站迁移实录
起源故事。Cowork 的墙:单线程卡脖子、跨 session 无记忆、断点续传不可靠。为什么离开旧平台重头搭建

如果对 AI-augmented investment research
或者 agent infrastructure 感兴趣 ——

欢迎联系,我们可以深入聊聊。这个站点只是我做过的一小部分