一个买方研究员的实践与判断

Research & Professional Cowork —— 下一代 AI 的
key battlefield

Eval feedback loop is the key to expert track

这是一个外资 PE / LO 买方研究员的 AI 投研开发的个人记录与感悟。我用 2 个多月的时间自学并搭建了一套生产级投研 harness 系统，但在这个过程中我也愈发认识到，所有的 Harness & skills 本质还是脚手架 —— 可以临时拓展模型现有的能力边界，但在专业领域达到专家水平，还需依赖模型自身的迭代进化。在清晰 reward / eval 与真实 Agent 工作环境下产生的错误数据本就是珍贵的资产，可以用于生产 benchmark、SFT / GRPO / DPO 所需数据来反哺后训练。

这套系统跑在 5,950 文件 vault 之上，是一个 7 层架构 —— 涵盖从原始数据采集、跨源综合、深度研究、到 IC Memo / 卖方报告渲染的全流程闭环

65+

活跃 skills

架构层

5,950

vault 笔记数

Eval 层级 (mech·LLM·cross)

三个相互正交的设计哲学基座：

Guide / Hook / Eval 三层 agent 行为框架 —— agent 在 high-stakes 场景下怎么稳定产出
data-validator 三维正交（信源 / 时效 / 对齐）—— 防数据幻觉的门槛
活 wiki + verified thesis truth base（librarian 主动维护）—— 已对齐的 fact 集合，下游任务的 base，机器和人都能读

但我发现这其中核心的价值不是"又一套 skills"，它指向两件事：

复合背景的专家的稀缺性 —— 金融领域专家 × 已被生产验证的 workflow 工程化能力，恰好是啃下 research 中间层需要的组合
在标准 GHE 框架下跑真实投研，本身就是一次人类专家 input 的采集 —— 被 Eval 或 human feedback 抓到的每一个错误，经归一化沉淀下来，都能成为反哺模型后训练的养料。有效且正则化的 eval 传递的清晰信号，与高度拟真的环境，是推进模型能力提升的 key factor

商业化的思考：为什么 Code 的下一站是 research cowork

coding 是 AI 落地的"手脚" —— eval 直接（strong verifiable truth，可以通过 RLVR 快速迭代）、ramp-up 快，自然被最先、最重地投入，这一层已经在快速兑现。但真正专业的工作 —— research 与 professional cowork —— 落在 chatbot 与 coding 之间，需要更合理地识别切分落地场景、构建多层清晰的 eval，是下一块还没被认领的未竟之地。

为什么这一层值得下重注？

Coding：模型 = 可替换的算子 —— 开发者天然在 IDE 里形成 hybrid 调用架构，谁强用谁，随模型领先而获客、也随模型落后而流失
Cowork：平台 = 持续沉淀资产的容器 —— workflow 嵌进组织的专业流程后，粘性来自 workflow 本身而非模型一时的领先
毛利更健康 —— 同样月付下，白领用户不会像开发者那样激进消耗 token
ARR、续费率比 chatbot 更稳、更可预测

这不只是一个更高留存的产品机会，更是一个价值沉淀位置更优的商业机会。

但 AI 产品现在堆了一身功能（Docs / Slides / Sheets 样样齐全），却普遍漏掉了这一层 —— 一个真正的 Professional Cowork Platform。有功能不等于有平台，平台要三件事同时成立：

workflow 闭环 —— 任务沉淀成可复用 workflow；先价值、后配置，和程序员相反
资产归属 —— 输出 / 模板 / context 组织成可携带资产
协作单元 —— 团队层，而不只是单用户

再往前一步，下一代 Cowork 会从"无状态工具调用"进化到持久化 Agent 池：agent 按行业 / 职能划分、各有 expertise domain，配个体 / 团队 / 组织三层记忆，Orchestrator 从"执行者"变"分配者"。

而现在恰好是一个少见的时间窗口：

模型 Agent 能力刚过"白领稳定可用"的门槛
需求被反复验证，但正确的供给还没出现
国际巨头受合规限制、大厂还没明确押注、纯 2C 模型公司缺中间层

这种"三不管地带"不会长期存在 —— 这是我看到的一块被低估的结构性缺口。

→ 完整展开（平台三要件 + 下一代 agent 形态）见 Cowork 平台战略思考 · 被低估的中间层

Harness 是暂时的脚手架，模型的进步是根本

而落到怎么商业化，我最在意的一个判断是 —— 把 AI 落进投研 / 法律 / 医疗这类垂直领域，第一步是建一套让领域专家高效带 AI 迭代试错的基础设施：error log → pattern → gate / benchmark，被 Guide / Hook / Eval 或 human feedback 识别到的错误本身就是资产。

但核心思想还要再近一层 —— skill + hook 这套 harness 终究只是套在模型外面的脚手架，挡得住已知的错，却没有改变模型本身。模型要真正达到专业领域的专家水准，靠的不是更厚的脚手架，而是把这些被归一化的错误，沿 error log → eval → benchmark → 后训练一路内化、升级进模型自身。脚手架是过渡，模型内化升级才是终点；而新的脚手架随模型能力不断调整，作为模型能力的外延进一步扩展其能力边界。

→ 完整展开（飞轮机制）见 AI Agent 正确的错误是资产 —— 怕的是 not even wrong

→ 实践落地见 FAGB —— 基于 error log 设计的金融领域 benchmark 原型

01 / 系统架构

七个功能层，一套知识闭环

系统按"做什么"分层，不按"用哪个模型"分层。Skills 组合成 pipeline，pipeline 组合成最终产物。整套架构跑在四角知识闭环上 —— OneNote ↔ NotebookLM ↔ WebDAV ↔ Obsidian —— 让记忆在 session 之间持久化、相互复利

数据采集层 —— 具体外部数据源。每个 skill 对应一类特定来源：A 股 / 港股 / 美国宏观 / 申万板块 / 期权 / 社交平台 / 公众号 / Capital IQ。任务是把 bytes 落盘，不做分析

ak-xq-router

A 股 + 港股双源 —— AKShare + 雪球，K 线 / 资金 / 北向 / 内建 consensus

sw-api-router

申万行业指数 —— PE BAND / PB-ROE / Z-score / 股息率 / 跨板块利差

fred-router

美国宏观 —— HY/IG 信用利差、失业率、JOLTS、Sahm Rule

iv-snapshot

期权 IV 实时快照 —— ATM IV / IV Rank / P/C ratio，覆盖 KWEB / TLT / USO / GLD

reddit-research

Reddit 公开 JSON API —— 品牌情绪 + 竞品分析，不用爬虫

mediacrawler-router

小红书 / 微博 / B 站并行采集，输出结构化 JSONL

wechat-research NEW

公众号批量抓取 → 按月合并 PDF → NLM 建库

capital-iq-router NEW

S&P Capital IQ Pro 登录态数据拉取 —— comps、consensus、ownership

基础设施层 —— 提供上层 skill 共享的底层能力：文件路由、通用 web 入口、PDF 获取、LLM 引擎调度、QC 治理、跨 session 多层记忆。这一层不绑定具体数据源，是稳定的运行时基础

cloud-files-router

文件主干道 —— WebDAV + GitHub 索引缓存 1,800 文件，所有 skill 共享的 I/O 入口

web-access

全局联网枢纽 —— CDP 携带 Chrome 登录态绕反爬，内置 WebSearch / Fetch / curl / Jina

web-pdf-fetcher FALLBACK

IR 网站 PDF 终极 fallback，绕过 403 + bot 检测，支持 IR 列表页自动取 PDF

llm-subagent NEW

LLM 引擎调度 —— DeepSeek-V4-Pro / V3 / 火山方舟 ASR，中文长文本 + 录音转写

data-validator

数值溯源 registry —— 跨 slide / 跨文档一致性 + staleness 检查，所有交付前 pipeline 都依赖

session-log + 多层记忆

三层记忆机制 —— MEMORY.md 常驻索引 / memory/topic/ 按需拉取 / session-log/ 跨 session 台账。state 落 disk 不在 context 里，compact 后可恢复

四角知识闭环。OneNote 是人类写入端口 —— 笔记自动同步到 Obsidian（全量 vault）、NLM、坚果云（所有 md 云端存储，支持远程读写不需要本地环境）。这是让整套系统感觉像"一直在线的研究助手"的核心。这一层只管知识的存储 / 检索 / 同步，不产出分析

notebooklm-router-py

直接调用 Google RPC —— 跨文档批量 Q&A，语义检索

report-prep-notebooklm

自动收集 10-K / 10-Q / 业绩说明会 / 卖方研报到 NLM 建库

onenote-nlm-sync

OneNote ↔ NLM 通过 Graph API 同步，GitHub Actions 触发

obsidian-librarian

5,950 文件 Obsidian vault 上的主动研究助手 —— wiki 维护 / 健康检查 / 跨源仲裁

onenote-obsidian-sync NEW

把 OneNote 个人笔记与 Obsidian 原子化片段库打通

领域专用的监控与情报产出。板块周期扫描、情绪定位、财报点评、快速初查 —— 这一层产出的是结构化分析，但还不是完整的 IC Memo 体量

hf-morning-brief

开盘前决策简报 —— 宏观 / 持仓 / IV / 情绪 / 板块 / 日程六模块

sentiment-cycle

F/N/L/M 四层评分 —— S1 萌芽 → S4 共识分裂的情绪阶段定位

sw-sector-cycle-research

申万行业估值 + leading indicator 追踪框架

earnings-review

Phase A 数字核验 → Phase B 结构化点评，自动 NLM 更新

onenote-quick-research

5 页结构化初查 —— Summary / 业务 / 市场 / 竞争 / 估值，新票快速建档用

serious-answer

三层认知标签 —— ①确认事实 ②我推断 ③我认为，强制 sourcing 纪律

旗舰层。深度研究、财务建模、IC Memo 生产。每任务 agent 数最多、sub-agent dispatch 最重、workflow 最长 —— 这是"一次性产出完整投资交付物"的工作流

deep-research-workflow FLAGSHIP

4 阶段、并行 sub-agent、per-slide RAG、state-machine 可恢复

3-statements-ultra

机构级三表模型，从零开始 —— 公式联动完整，季度 / 半年 / 年频自适应

ic-memo-outliner

规划层 —— thesis tree + 6 段 storyline + 逐 slide outline + data 底稿

visiting-memo

公司调研 / 专家访谈 memo 生成器 —— ASR → 结构化 docx

渲染 + 输出后处理层。PPTX（三个品牌模板族）、DOCX（机构模板）、文生图、中文 humanize。所有 deck 渲染都走 5-phase QC：repair → eval → source-clean → layout-validator

ic-pptx

机构级 IC Memo PPT 渲染器 —— Pattern A–L，5-phase QC

acme-slides-creator-json

JSON SSOT → 浅色商务 deck，品牌字体锁定

navy-slides-creator-json

JSON SSOT → 深蓝机构 deck 变体

docx skill

docx-js 路径生产机构 Word

gpt-imagegen

GPT Imagine 2 CDP 文生图 + 自动下载，批量 deck 插图

pptx-template-analyzer

上传 .pptx 母版 → 自动解析 layout → 生成模板校准补丁

humanizer-zh NEW

中文输出后处理 —— 剥离 AI 写作 pattern（"值得注意的是"等）

Eval 层 —— 高价值交付物的最后一道闸，不产新内容，专门评判前面 6 层产出的对不对。eval 的写法分两级：第一级是机械检查，纯 Python 完成 —— 配平、数值区间、密度 / 版式 / 渲染验证，绝大部分 eval 在这一级以确定性规则跑完；剩下约 20% 才交给 LLM as judge —— 独立 context 语义审查、跨模型对照，处理规则写不出来的判断

deck-eval-router

统一路由 PPTX / HTML deck QC（repair → eval → source-clean → layout-validator）

pptx-eval

PPTX 真实性验证 —— PowerPoint COM 打开、catch 修复对话框、抓渲染异常

pptx-repair

PPTX 自检 + auto-fix gate —— 过 eval 前的预处理，抓十几种已知渲染 bug

density-eval

slide 密度 9-grid eval（HTML / PPTX 通用），slide 生产末尾自动调用

check

通用 diff 审查 + 自动修复 + 大改派遣 specialist reviewer

codex:codex-rescue

Codex 跨模型审查 —— 同模型 self-eval 抓不到的盲区在这里补

这套架构跑出来的真实 artifacts

PPTX

AAPL · HF Investment Case

买方 IC deck · PPTX —— 5-phase QC、Codex 把关

→

DOCX

AAPL · 买方 Memo

决策导向长文版本，与 deck 共享 thesis

→

DOCX

AAPL · 卖方 Full Report

分析师向长文 —— 同 workflow、不同受众

→

DOCX

Netflix · Initiating Coverage

deep-research-workflow 全流程产出 · 卖方 Full Report

→

DOCX

Netflix · HF Investment Case

买方 memo · 决策导向短文版

→

DOCX

Netflix · PM Question Responses

基于已建 corpus 逐题点对点回答 PM 问题

→

PPTX

Acme Semis · Initiating Coverage

acme 模板族示例 —— JSON SSOT → 浅色商务 deck

→

02 / 设计哲学

三个基座，互相正交

把"AI 怎么稳定产出投研产物"这件事拆开，底下有三个不依赖具体模型的基座：Guide / Hook / Eval 解决 agent 行为框架，data validation 解决数据准确性门槛，活 wiki 作为已验证的 fact + thesis truth base，让 agent 下一次任务不用从零开始。三件事彼此正交，缺一个都补不上其他两个。

02 · a — Agent 行为框架

三层架构 —— 把会过期的和不会过期的分开

第一个月最大的错误是想用 prose 锁死 agent 行为。Guide 越写越长，模型越漂越多，补丁越打越乱。后来想明白了：Guide 应该轻，因为它会过期；Eval 应该重，因为结果不会过期。三层架构定义了一个 agent 在 high-stakes 场景下怎么稳定产出 —— 这是整个系统 agent-based 设计的骨架

Layer A · 轻

Guide

指方向，不锁路径。更强的模型可以直接绕开

内化人类经验 —— 踩过的坑、工作流骨架、session 边界 —— 但不锁死每一步。Guide 超过 500 行，LLM 读完前 5 页就忘了后面。

真实例子 · IC Memo Outliner

180 行主入口 + 12 份按需加载的 phase 专属 reference。允许 drift —— 有时候 LLM 漂出来的路径反而比预设的更好（比如发现数据不支持原计划的某个论点，主动回头调整论点结构再继续）

反例

有个老 skill 是单文件 monolithic guide。输出 checklist 合规率明显偏低 —— 后半段规则被忽略是常态。改成"薄主入口 + 按需 reference"之后，合规率明显上来。修复点不是"加更多规则"，是"任一时刻减少 LLM 要消化的表面积"

Layer B · 硬

Hook

绝对护栏。PreToolUse 拦截、exit 2、不可绕过

编码业务铁律 —— 不随模型版本变化的硬规则。硬编码路径、禁用 API、必跑的 preflight 检查。一个成熟 skill 的 hook 数应该是个位数，且 self-gated。

真实 hook · eps_yfinance_guard.py

# 拦截 A 股 / 港股 ticker 调用 yfinance.forwardPE # 实测偏差：BYD 35%、Changan 66% if ticker.endswith((".SS", ".SZ", ".HK")) \ and "forwardPE" in code: sys.stderr.write("BLOCKED. 走 ak-xq consensus.") sys.exit(2)

为什么需要这条

某次脚本通过 yfinance 拉了 BYD 的 FwdPE，把 12 个 cell 写进模型。偏差 35%。三周后另一个 agent 走同样路径，被这条 hook 拦下来 —— 这就是 hook 的价值：业务铁律编码一次，未来所有 agent 都受这条规则约束

Layer C · 抗腐

Eval

结果导向 · 强通用性

最重要的一层，因为它评判的是"最终交付物对不对"—— 这跟"用哪个模型"无关。所以它跨模型版本最抗腐：新模型上线、Guide 可能要重写，但 Eval 主要做小修补。这就是它的强通用性。

财务模型的 5 层 eval stack

L0 机械 BS 配平 · IS 重述 · CF 收口 ~50ms L1 独立同模型 fresh-context Claude 语义检查 ~12s L2 跨模型 Codex / GPT-5.4 —— 不同 prior ~25s L3 备份跨模型 L2 不可用时降级 DeepSeek-V4-Pro ~18s L4 合并裁决三方 verdict 汇总

实测收益

加上 L2 跨模型这一层，缺陷捕获率明显上来。最常抓的是"机械求和对得上、但比率明显不合常识"那一类 —— 同模型 review 会接受"加总对了"，跨模型会 push back "ratio 不合理"

Guide 应该轻，因为它会过期。Hook 应该硬，因为它编码的是与模型能力无关的业务边界。Eval 应该锐，因为它评判的是最终交付物 —— 这是不随 LLM 演化而变的客观事实摘自《Guide / Hook / Eval》 · 2026 年 5 月

→ 延伸阅读：Eval 的下一步 —— error log 怎么归纳成 pattern，再变成 skill gate / agentic benchmark / 后训练信号：AI Agent 正确的错误是资产 —— 怕的是 not even wrong

02 · b — 数据信任模型

金融信息的三维正交评估

Guide / Hook / Eval 是关于 agent 行为的设计；还有一个同样底层的设计问题：怎么判断一条数据值不值得相信？买方投研里这不是一维 yes / no —— 而是三个互相正交的维度，每一个都不能 cover 另外两个

维度 01

信源质量 tier

这条数据来自哪里 —— 决定了它的可信天花板

T1 一手硬数据 —— 招股书 / 年报 / 季报 / 官方公告
T2 已验证 vendor —— Capital IQ / yfinance / AKShare 等 vendor 直接输出的非预测字段
T3 Forecast / 共识 / 单源 web —— 卖方一致预期、Bloomberg 共识（≥ 2 underlying）、公众号披露、单一调研口径
T4 单源 DR 推断 —— 必须 footnote 标注，不能进交付物正文，除非交叉验证后升级成 T3

维度 02

时效性 as_of

这条数据是什么时候的 —— 再硬的数据过期了也得降级

每条 data point 入库就绑定 as_of date
交付前 gate check 比对当前 vintage 要求；过期 data point 自动 flag —— 哪怕原本是 T1，也降级或下架
as_of 独立于 tier 计算（T1 + stale 仍然 fail），三维不互相 cover

维度 03

交叉验证 alignment

有多少独立来源在说同一件事 —— 单源数据天然打折

单一 source 即使是 T1 也保留怀疑（口径 / 时间窗 / 错位可能）
多源对齐 → trust 显著提升；多源冲突 → 按 tier + 时间锚定仲裁
买方 alpha 经常藏在同事实多源口径不一致的 gap 里 —— gap 本身就是研究入口

data-validator registry 的设计思考

三个维度相互正交 —— 意味着不能用单一指标概括 trust。Registry 给每条 data point 同时存三个独立标签：tier + as_of + source(s)。下游 skill 引用时按所有三个维度决策。Derived data 走木桶原则继承最差 tier；但时效性和对齐度独立计算，不被 tier 覆盖

所以"为什么这条数据可以进 deck"不再是 LLM 的临场判断 —— 而是 registry 在交付前自动跑的三维检查。这把 data trust 从 ad-hoc judgement 变成了可审计的工程问题。这也是 data-validator 作为 cross-cutting QC 治理放在 L0 的根本原因 —— 它不属于任何业务层，它是每一层都得遵守的物理定律

→ 延伸阅读（含真实 registry schema + 木桶原则示例 + L0 cross-cutting 的工程理由）：data-validator 机制 · 三维正交模型

02 · c — Verified Fact & Thesis Truth Base

活 wiki —— 一个 fact 集合知识库 + verified thesis truth base

活 wiki 不是"持久化记忆"，本质上是一份 fact 集合知识库 + verified thesis truth base —— 经过反复交叉验证、已经 refine 过的事实和结论的整合层（不是材料归档、不是 LLM 记忆）。它有两个用途：(1) 下游任务（生成 deck / 模型 / memo / 调研问题清单）直接拉它做 base，不用每次从零开始；(2) 人可以直接打开阅读，看到当前 thesis / 最近研究动作 / 待追问的问题 / 已识别矛盾的高密度信息流。一份合格的活 wiki 同时服务这两个读者 —— 机器和人共用同一份 truth base

用途 A · 机器

下游任务的 Truth Base

不用每次从零开始 —— 生成 deck / 模型 / memo 直接拉

每条 claim cross-link 到源 visiting record / 卖方研报，全程可追溯
数字带 tier + as_of + sources 三维标签，下游 gate check 自动跑三维验证
不依赖 prompt 临场塞资料 —— skill 引用 wiki 即引用 verified truth

用途 B · 人

可直接读的信息流

打开 wiki 一眼看到"我们当前怎么看"，不是旧 snapshot

14 段标准结构：Bull / Bear / Tail Risk / Key Guidance / Known Truth / 近期 Thesis 等
§4 Key Take-Away 每天滚动聚合 7 桶（研究 / 公告 / 卖方 / 纪要 / 新闻 / 监管 / 竞品动态）
估值段每天按最新股价实时缩放；催化剂日历持续巡查；矛盾点显式标红

机制 · 越积越厚

Base 复利 —— Compound

每次研究都把下次任务的 base 抬高一层

四角同步（OneNote ↔ NLM ↔ WebDAV ↔ Obsidian）确保 fact 集合不丢
Q&A 双链：今天的答案归档 + 更新 wiki，明天 vault scan 起点已抬高
三个季度后，wiki 不再是材料汇总，而是反复验证的 verified thesis truth 集合

为什么这是哲学层面的基座

活 wiki 不只是 "存个文件" —— 它是把零散原始材料经过验证 / 对齐 / refine 后，整合成 verified truth + thesis 的那一层。原始材料（visiting record / 卖方研报 / 公众号 / 模型 / 调研笔记）作为raw input持续流入；活 wiki 作为refined output持续生长 —— 中间靠 librarian 的跨源仲裁、健康检查、Q&A 双链等机制做"提纯"

这一层的存在，决定了 agent 跟 LLM context 的关系：临时 context 处理眼前任务，活 wiki 提供持续 refine 的 fact + thesis truth base。RAG / prompt 临场塞资料只能 cover 表层 —— 真正的研究伙伴必须有一份在所有 session 之外都持续生长的 verified truth 集合，让每次新任务都从一个比上次更高的 base 开始。这是为什么没有活 wiki 的 agent 再聪明也只能是工具，有活 wiki 的 agent 才可能成为研究伙伴

→ 具体实现见 §03·a Memory System（四角同步）和 §03·b Librarian（三阶段循环 + 真实活 wiki sample）

03 / 模块拆解 · 配 samples

撑起这套系统的三个模块

Memory 持久化是地基，Librarian 是地基之上的主动大脑，IC Memo Pipeline 是最终产物。每一个都是独立的设计练习 —— 哪些自动化、哪些留给人判断、接缝在哪里

03 · a — Memory System

一个持久化的第二大脑，不只是聊天记录

LLM 的 context window 会扩张也会压缩；对话会结束。在 session 之间能持续存在的东西，决定了 agent 感觉像"长期搭档"还是"每天早上要重新介绍一次的工具"。OneNote 是人类写入端口，笔记自动同步到 Obsidian（全量 vault）、NLM、坚果云三个节点

OneNote

个人笔记 · 会议纪要

NotebookLM

语义检索 · 跨 transcript Q&A

WebDAV（坚果云）

工作文档 · 模型 · deck

Obsidian vault

5,950 文件原子化片段库

four-corner
sync loop

关键洞察不在四个节点本身，而在"写一次就够了"。开会时往 OneNote 写一条 memo，几分钟后 NotebookLM 能跨文档搜到，Obsidian vault 里已经是原子化片段，WebDAV 上有备份。下一个需要这条信息的 agent 直接找到 —— 不需要我再喂一遍

这是后面所有东西的地基。没有持久化记忆，每次 agent run 都从零开始；有了它，每次 session 都在复利

03 · b — Librarian

从记忆系统升级到主动研究助手

§03·a 的 memory 是被动的 —— 它存。当 vault 文件超过 5,000 之后问题翻转：今天我该看什么？哪些 thesis 过时了？下一步该问什么？ Librarian 是一个三阶段循环，把 vault 变成一个真正在工作的分析师助手。每个阶段喂养下一个 —— 而下一轮循环的起点永远比上一轮高一层

Stage 01

搭建 & 维护

一个活的 coverage wiki，跨源仲裁内嵌其中

每家公司 14 段标准 wiki —— 每条 claim 都 cross-link 到源 visiting record
§3 估值实时缩放 —— 每天按最新股价对模型估值整体缩放；模型本身季度更新一次
§4 Key Take-Away · 7 桶聚合 —— 研究活动 / 公告 / 卖方研报 / 会议纪要 / 新闻 / 监管 / 竞品动态
每天对 focus list 跑 4 类 WebSearch query（company news / regulatory / competitor / announcement）—— 一个永远不会忘记跑搜索的 junior RA
两层健康检查：状态巡查（TP 过期、临近财报、股价偏离 TP 过大），再做跨源冲突扫描
跨源仲裁按 source tier（T1-T4）+ 时间锚定；判不准的不强选，主动 raise 给人

Stage 2A

Question List

LLM 基于核心问题 + question pool 自动生成提问清单

读取核心问题 + vault 相关资料 —— 基于研究焦点和当前假设，LLM 自动定位相关材料
参考 question pool —— 历史积累的高质量问题模板，按场景（会前 / 财报 / 调研）分类复用
自动衍生提问 —— 填补盲区，产出一份结构化、有优先级的 key question list

Stage 2B

会前 Prep

对 question list 逐题做 vault 全扫描，生成会前 briefing

Question list → vault 全扫：每个问题下方自动附"vault 扫描初步结论"，从纪要 / 研报 / 模型 / 公众号里跨源拼接
跨源综合 —— 散布在不同时间、不同来源的证据被拼成一张完整画面，像高级分析师会前做的功课
认知偏差主动纠偏：当你的假设（"FX 收益近 100 亿"）和 vault 真实数据（"管理层口径全年 27 亿"）不一致，会前就被标红了 —— 在会上才发现就晚了
已知事实 / 已知矛盾 / 建议追问方向逐题附下
产出是一份可打印的会前 briefing，不是一堆搜索结果

Stage 03

闭环 & 复利

会后：归档、回填、级联更新，把下次的起点抬高

录音 → ASR 转写 → 结构化纪要归档到 visiting record/
逐题回填：每题对应回答 + 来源 + 日期 + 状态标签 —— asked / partial / skipped / avoided / contradicted
wiki 级联更新：新数据更新对应段落；Key Take-Away 刷新；催化剂日历加入分析师提到的时间节点
Next steps 自动生成，来自"还缺什么" —— 下次该问什么、要验证什么、要监控什么
Q&A 双链复利：今天的答案先以 T3 候选信源 入库；经多次验证（health check 定期巡检 + 跨源比对 + 后续 vault scan 引用率）才晋级到 T2 / T1。只有验证过的内容才成为明天 vault scan 的 baseline context —— 每轮循环 question list 起点更高，但起点必须是已验证的

↻ 每轮循环把下一轮的起点抬高（验证过的部分）

三个阶段下面的底层基质

三阶段循环跑在 §02·b 的三维数据信任模型之上 —— tier / as_of / alignment 三个独立维度，每条 claim 入库就同时标这三个标签。Librarian 在每个阶段都对这三维做检查：

Stage 01 入库：data-validator 给新增 claim 自动 assign tier（T1-T4），绑定 as_of date，记录所有 source。Stage 02 调用：question list 拼接 vault scan 答案时按 tier 排序、按 alignment 加权 —— T3/T4 单源内容标红，提示分析师追问。Stage 03 闭环：新 Q&A 答案先以 T3 候选入库，经后续 health check 反复巡检 + 多源对齐验证后晋级 T2；被新数据推翻则降级

Health check 双层巡检：状态层（TP 过期 / 临近财报 / 价格偏离 / 催化剂到期）+ 跨源冲突层（管理层口径 vs 卖方 forecast / 新研报 vs 旧研报 / 模型数字 vs 公众号披露）。同公司多源冲突按 tier + 时间锚定自动仲裁；真模糊的 gap 主动 raise 给我

质量控制不是交付前那一道单独的检查 —— 它在每一步都在跑，三维都在跑。所以最终的 IC Memo 或 deck 是过程的自然产物，不是事后补救

这套循环的真实产出 —— 每阶段一份

Holdings Wiki · Coverage

Geely.md — 吉利汽车 / 0175.HK

更新于 2026-05-14 · 自动综合自 12 份 visiting records

Stage 01 output

摘录 · §1.1 Bull Case

1.1 Bull Case

核心逻辑：极氪高端化突破 + iHEV 切入全球燃油车替代市场 + 出海提速，三条主线同时兑现

极氪品牌基因确认 —— 9X / 8X 双爆款验证团队、产品、渠道三要素齐备。9X 单车利润 7-8 万元、8X 约 4-5 万元（GPM >38%），对标 BBA 30-50 万区间。← visiting record · 2026-04-21 卖方分析师交流
iHEV 差异化第二牌 —— 全球年销约 9000 万台，5000-6000 万仍是传统燃油车。吉利 iHEV 可切入丰田 HEV 主导的全球市场。← BOCI 分享 · 2026-04-30
出海提速 —— Q1 出口 +126%，全年目标 75 万辆，轻资产 + 合作伙伴双轨。← 26Q1 post call · 2026-04-30

这是什么

一份活的 coverage wiki —— 对一家持仓的当前 working hypothesis。14 段标准结构，从 thesis 到 valuations、key guidance、known truth、recent thesis。每条 claim 都 cross-link 到它来源的 visiting record 或卖方研报

怎么生成的

每次新 visiting record 落到 vault，Librarian 的 Stage 1 自动 ingest。Claim 被提取、匹配到现有 thesis 段落、生成 wiki diff 提案。日常信息流（数据更新、新 source ingest、claim 提取）全自动；重要的 thesis 和长期判断的修改需要人工批准。 来源间的冲突主动 raise 出来，不静默覆盖

为什么重要

半年前的 thesis 会随着新数据到来悄悄漂移。Wiki 保持 "我现在相信什么、为什么" 的 current consensus 版本 —— 可审计、源头可追溯、绝不投机

4 条 Bull · 5 条 Bear · 3 条 Tail Risk · 12 条 cross-link 打开完整 wiki →

Holdings Wiki · Coverage

Chery.md — 奇瑞汽车 / 9973.HK

更新于 2026-05-13 · IPO 后机构覆盖 + 估值重估周期跟踪

Stage 01 output

摘录 · §1.1 Bull Case

1.1 Bull Case

核心逻辑：中国出口量最大的车企，港股上市后（2025-09-25）进入机构覆盖 + 估值重估周期

出海绝对量领先 —— 2026 年出海体量目标 160-180 万辆，海外占比远高于国内。中东、南美、俄罗斯渗透深。← BOC 专家访谈
盈利增长确定性 —— FY25 NI GAAP 2,647 USD mn (+35% YoY); consensus FY26E 2,875 (+9%)
多品牌矩阵 —— 奇瑞 / 星途 / iCAR / 智界（华为合作），覆盖大众到高端全价位
NI margin 优于 Geely —— FY26E 5.5% vs Geely 4.9%

为什么这份比普通 wiki 更值得讲

奇瑞 2025 年 9 月才上市。几乎没有历史卖方覆盖可参考 —— 每条 claim 都得从一手材料（招股书、近期管理层访谈、CapIQ consensus）source-trace 出来

和 Geely 的不同

Geely wiki 是 12 个月共识的提炼，这一份更像是仍在 working 的 hypothesis。Bear case 占同等权重 —— 见下面 GPM-drivers 分析，那是最深的担忧：海外护城河本质上是不是个 transition window margin？

cross-link 到 8 份 visiting records · 3 份卖方研报 · CapIQ consensus 打开完整 wiki →

任务级辅助 · 跨源综合

Chery GPM Drivers — 五个季度从 10.6% 反弹到 16.0%

2026-05-11 · 综合自卖方研报 + 专家访谈 + AKShare

Stage 02 output

摘录 · §1-2 定量拆解

季度 GPM 走势

Quarter	GPM	Export %
FY22	14.8%	~50%
FY23	16.0%	50.0%
24Q4	10.6%	—
25Q1	12.4%	—
25H2	14.5%	47.8%
26Q1	16.0%	65.4%

三个驱动力 —— 定量拆解

出口占比从"高"到"极高" —— 贡献约 1.0-1.3ppt
海外动力结构升级 —— 贡献约 2.5-3.0ppt
规模效应 + 成本下行 —— 贡献约 1.0-1.5ppt

这份回答的问题

"奇瑞 GPM 为什么从 10.6% 五个季度反弹到 16.0%？" —— 一次研究讨论中提出。Librarian 在 Stage 02 拼出答案：拉 AKShare 季度 GPM、三份卖方拆解、一份专家访谈、IPO 招股书

非显而易见的发现

把 +5.4ppt 的变动拆成三个驱动力 —— 但标出来 2.5-3.0ppt（驱动 2）是最高 margin 的出口结构升级。如果这个 mix 不持续，floor 比当前 run-rate 暗示的要低得多

它链接到什么

被下方卖方分析师 question list 直接引用 —— Question 0.4 让管理层回答：这是 moat 还是 transition-window margin？

7 个 source · 1 份定量拆解 · 3 条 caveat 打开完整分析 →

会前 briefing → 会后闭环

卖方分析师交流 — question list + vault 扫描答案 + 会后状态追踪

v3.1 · 准备日期 2026-05-11 · 交流 2026-05-13 · 28 个问题、4 个优先级

Stage 02 + 03

摘录 · §0 空头核心 concerns + 会后状态

§0 Reality-check（前置必问）

0.1 国内零售 7.38 万被零跑追平 —— 国内为什么落后？

0.2 新能源无爆款 —— 60 款 SUV 内耗、资源分散问题？

0.3 海外护城河本质质疑 —— NEV 转型 vs 燃油车出口窗口期红利？

0.4 海外 vs 国内动力拆分毛利对照 —— 混动 18% / 燃油 10-12% / 纯电个位数 vs 国内 proxy；单车 NI 1-1.1 万 vs 5000-6000 元缺口分析

会后状态（2026-05-13）

状态	数量	含义
Answered	13	卖方分析师给了清晰可引用数据
Partial	5	提到但未深入
Skipped	9	时间限制未问到
Avoided	1	问了但卖方分析师未正面回答

Stage 2A —— question list

LLM 根据我的核心问题自动读取 vault 相关资料，参考 question pool（历史积累的高质量问题模板），衍生提问、填补盲区，生成一份结构化的 key question list。三个版本演化：v1 标准 coverage 问题 → v2 把空头核心 concerns 前置 → v3 把"海外护城河是否实际上是 transition window"作为最深的关切浮上来

Stage 2B —— 会前 prep

对 question list 逐题做 vault 全扫描，附"vault 扫描初步结论"—— 已知什么、源头之间哪里矛盾、值得继续追问什么。产出是一份可打印的会前 briefing，带认知偏差标红

Stage 03 —— 会后闭环

会后逐题状态记录：13 Answered / 5 Partial / 9 Skipped / 1 Avoided。"Avoided"那一题是最有意思的信号 —— 分析师无法或不愿在录音上面回答。逐题回填触发 wiki 级联：新数据更新对应 §，催化剂日历加入时间节点，next-step 从"还缺什么"自动生成

28 个问题分 4 个优先级 · 会前 prep + 会后状态追踪打开完整 question list →

03 · c — IC Memo Pipeline

六个阶段，从原始 filings 到一份完成的 deck

Librarian 是一个连续维护状态的循环；IC Memo Pipeline 是一次性 build。点任意一个 stage 看它跑什么 skill、产出什么 artifact、对应的 eval 抓什么 bug

Phase 0

原始 filings

report-prep-nlm

Phase 1

NLM ingest

notebooklm-router-py

Phase 2

Outliner

ic-memo-outliner

Phase 3

Data registry

data-validator

Phase 4

Renderer

ic-pptx

Phase 5

Eval gates

5-phase QC + Codex

这条 pipeline 的产物示例 PPTX

HV Transmission · 行业深度研究

17.5 MB · 多 agent 并行 build · 跨模型 eval

→ PPTX

AAPL · HF Investment Case

2.3 MB · 买方 IC deck · thesis tree → 6 段 storyline

→

04 / Commercial Perspective

被低估的中间一层：Professional Cowork Platform

两个月构建这套系统，让我对 AI 产品格局形成了一个比较强的判断。我做的这套东西不是 chatbot，也不是 coding tool —— 它在两者之间，而这一层在中国市场结构性供给不足

当下 AI 产品市场已经有两条被反复验证的赛道。Chatbot 饱和 —— 每家模型公司每家国内平台都有一个，用户教育早完成了，DAU 漂亮，但工作流沉淀很薄。Coding 工具填充很快 —— Claude Code、Cursor、Cline 证明了用户愿意为任务级生产力付费。但 coding 的价值很容易外溢到 IDE 和编排层，模型成了可替换的算子

真正还没被占住的，是中间那一层 —— 给"非代码的专业工作流"用的产品。人们已经在用 AI 做 earnings review、行业研究、法律 memo、咨询交付、结构化写作。但还没有产品把这些用法承接成 稳定、可复用、可协作、可沉淀的工作流资产

我把这一层叫 Professional Cowork Platform。它和 chatbot 不同（没工作流沉淀），和 coding 也不同（价值不外溢）。它的商业逻辑也不一样：它积累的是工作流资产，留存来自沉淀，用户越用越难离开。这种商业质量，比聊天和代码都要厚得多

Anthropic 的 Cowork 是这个方向最早的尝试之一，但读起来像半成品 —— 更像是为 managed agent 2B 产品试水铺路，顺便做的。中国市场基本是空白：Kimi、文心、通义、豆包都有成熟 chatbot；Kimi Code、通义灵码在填 coding；但真正的 Professional Cowork 没人在做。

我自己两个月的经历就是论据。学 LLM、harness engineering、agent management 一路磕磕绊绊，本科还有点编程老底子才搭完一个个人系统进入"专业工作平台"状态。这是典型的 configure first, value later 路径，对小白用户极不友好。真正对的产品应该把顺序反过来：让用户先直接完成任务，再让系统识别重复 pattern、一键固化成 workflow。这个顺序的反转，才是这个市场最大的机会

再往前一步 —— 下一代 Cowork 的底层会从"无状态工具调用"进化到 持久化 Agent 池：agent 按行业 / 职能划分、有自己的 expertise domain，配个体 / 团队 / 组织三层记忆，技能栈运行中可从"技能市场"加载演进，Orchestrator 从"执行者"变成"分配者"

而把 AI 真正落进投研 / 法律 / 医疗这类垂直领域，核心是建一套让领域专家高效带 AI 迭代试错的基础设施（error log → pattern → gate / benchmark）。现在恰好是一个少见的时间窗口：模型 Agent 能力刚过"白领稳定可用"的门槛，需求被反复验证、但正确的供给还没出现，而国际巨头受合规限制、大厂还没明确押注、纯 2C 模型公司缺中间层 —— 这种"三不管地带"不会长期存在

三层 AI 产品图

Chatbot 饱和 · 沉淀薄

Coding 填充中 · 价值外溢

Cowork 结构性空缺 · 本文论点

"有功能"不等于"有平台"

Docs / Slides / Sheets 这些功能模块 ≠ Cowork。真正的 cowork 平台需要三件事同时成立：workflow 闭环（任务 → 可复用 workflow → 共享模板）、资产归属（输出 / 模板 / context 组织成可携带资产）、协作单元（团队层而不只是单用户）。当下产品有功能，但没平台

下一代形态：持久化 agent

当下的 cowork 还是用户驱动 + workflow 沉淀。再往前一步是 persistent agent based —— 系统不止是工作流模板，而是有持久记忆 / 主动跟踪 / 跨 session 状态的 agent，能在你不开机的时候继续替你工作。

垂直领域怎么落地

把 AI 落进投研 / 法律 / 医疗，核心是建一套让领域专家高效带 AI 迭代试错的基础设施（error log / 归一化 feedback / gate / benchmark）。这正是垂直 AI 商业化的核心。AI Agent 正确的错误是资产 —— 怕的是 not even wrong 完整展开了这套飞轮机制

完整论证

完整版：Cowork 平台战略思考

Research & Professional Cowork —— 下一代 AI 的key battlefield

七个功能层，一套知识闭环

三个基座，互相正交

三层架构 —— 把会过期的和不会过期的分开

Guide

真实例子 · IC Memo Outliner

反例

Hook

真实 hook · eps_yfinance_guard.py

为什么需要这条

Eval

财务模型的 5 层 eval stack

实测收益

金融信息的三维正交评估

信源质量 tier

时效性 as_of

交叉验证 alignment

活 wiki —— 一个 fact 集合知识库 + verified thesis truth base

下游任务的 Truth Base

可直接读的 信息流

Base 复利 —— Compound

撑起这套系统的三个模块

一个持久化的第二大脑，不只是聊天记录

从记忆系统升级到主动研究助手

搭建 & 维护

Question List

会前 Prep

闭环 & 复利

Geely.md — 吉利汽车 / 0175.HK

1.1 Bull Case

这是什么

怎么生成的

为什么重要

Chery.md — 奇瑞汽车 / 9973.HK

1.1 Bull Case

为什么这份比普通 wiki 更值得讲

和 Geely 的不同

Chery GPM Drivers — 五个季度从 10.6% 反弹到 16.0%

季度 GPM 走势

三个驱动力 —— 定量拆解

这份回答的问题

非显而易见的发现

它链接到什么

卖方分析师交流 — question list + vault 扫描答案 + 会后状态追踪

§0 Reality-check（前置必问）

会后状态（2026-05-13）

Stage 2A —— question list

Stage 2B —— 会前 prep

Stage 03 —— 会后闭环

六个阶段，从原始 filings 到一份完成的 deck

被低估的中间一层：Professional Cowork Platform

三层 AI 产品图

"有功能"不等于"有平台"

下一代形态：持久化 agent

垂直领域怎么落地

完整论证

沿途写下的那些文章

如果对 AI-augmented investment research或者 agent infrastructure 感兴趣 ——

Title

Research & Professional Cowork —— 下一代 AI 的
key battlefield

可直接读的信息流

如果对 AI-augmented investment research
或者 agent infrastructure 感兴趣 ——