蒸馏一型 · 源材料蒸馏 触发:CEO 随手扔给我一份资料——可能是一本电子书、一段播客、一篇长文、一个 YouTube 视频、一份 PDF 研究报告、一个课程讲义、一个网页链接。 定位:全公司共享的源材料加工流水线,把"CEO 的输入"变成"所有岗位都能用的原料"。 原则:不做二次蒸馏(铁律 2)——只提取原文 + 结构化摘要,不再压缩已经被别人压缩过的结论。 输入格式支持 格式 处理方式 纯文本 / Markdown 清洗 + 元数据补全 PDF OCR(如果是扫描件)→ 文本化 → 清洗 网页 URL 抓取主体内容 → 去广告 → Markdown 化(用 Reader Mode 或 mercury-parser 思路) 视频(YouTube / 本地) Whisper 转录 → 分段 → 打时间戳 音频(播客) Whisper 转录 → 分段 电子书(epub / mobi) 按章节切分 → Markdown 化 图片(截图 / 手写) OCR → 文本化 7 步工作流 第 1 步 · 接收与登记 动作: 1. 接收 CEO 投喂的原始资料 2. 生成唯一 ID:YYYY-MM-DD_{类型}_{简短标题} - 例:2026-04-12_book_俞军产品方法论 - 例:2026-04-12_podcast_Lenny_on_PM_hiring - 例:2026-04-12_paper_ReAct_prompting 3. 在 04_公司记忆/源材料库/_索引.md 登记一条(占位) 产出:ID + 索引占位 第 2 步 · 格式转换(input → 文本) 动作:按输入格式选择转换管道: PDF → OCR / 直接提取 → Markdown 视频 → Whisper → 带时间戳的转录稿 → Markdown 网页 → Fetch → Reader Mode → Markdown 音频 → Whisper → 分段转录 → Markdown 电子书 → 章节切分 → Markdown 图片 → OCR → Markdown 禁止: - ❌ 不允许跳过这一步直接做摘要——必须先有完整原文作为底稿 - ❌ 不允许在这一步做任何"压缩 / 概括 / 省略" 产出:04_公司记忆/源材料库/{ID}/原文.md(可能很长,但必须完整) 第 3 步 · 元数据补全 动作:写 {ID}/_元数据.md 的 frontmatter: --- id: {ID} title: {资料标题} author: {作者} source_type: {book / paper / podcast / video / web / course / report} source_url: {原始链接,尽量补上} publication_date: {发表日期} length: {字数 / 时长 / 页数} language: {zh / en / ...} tier: {A / B} authority_level: {T1–T7} collected_at: {YYYY-MM-DD} collected_by: CEO distilled_at: {YYYY-MM-DD} distilled_by: CKO tags: [AI, 产品方法论, Agent] summary_one_liner: {一句话摘要} --- 禁止: - ❌ 元数据缺失就进入下一步(无溯源 = 无资格进库) 第 4 步 · 五层产出 动作:基于原文产出以下五层结构化产物,每层独立一个文件: 4.1 一句话摘要 {ID}/01_一句话摘要.md 20–40 字 不能带"本文认为 / 作者指出"这种废话 直接陈述核心观点 4.2 金句摘录 {ID}/02_金句摘录.md 10–30 条原文金句 每条带原文页码 / 时间戳 不做任何改写——原文原样引用 格式: ``` "用户价值 = 新体验 - 旧体验 - 替换成本" — 俞军《产品方法论》第 3 章,P.47 ``` 4.3 方法论提取 {ID}/03_方法论提取.md 识别资料中的可复用方法论(如果有) 每个方法论写: 名字 一句话定义 适用场景 使用步骤 原文溯源 禁止脑补:资料里没说的不能编 4.4 可操作清单 {ID}/04_可操作清单.md 把资料中的结论转化为对一人公司具体可做的动作 格式: ``` [ ] 动作:写 PRD 时先写新闻稿和 FAQ(Bezos Working Backwards) 溯源:P.123 "Bezos 的六页纸制度" 落地:加到 AI PM 工作流程 SOP 第 X 步(需过铁律 1 闸) ``` 4.5 关联岗位标签 {ID}/05_关联岗位.md 这份资料对哪些岗位有用: [x] AI 产品经理 [x] 交互 UI 设计师 [ ] 全栈工程师 ... 按岗位列出 3–5 条"对这个岗位的具体启发" 第 5 步 · 权威度判定 动作:按权威金字塔 T1–T7 判定档位: 级别 描述 T1 顶会论文 / 祖师书 T2 学术期刊 / 博士论文 T3 标准组织 / 政府 T4 顶级大学课程 T5 科技巨头官方 T6 咨询公司 / 行业分析 T7 认证课程 禁止: - ❌ T7 以下(微博 / 抖音科普 / 营销号)不准进源材料库 - ❌ 无 tier 评级就进索引 第 6 步 · 分发到岗位知识库 动作:根据第 4.5 步的"关联岗位标签",在对应岗位的 专业知识库/源_用户提供/ 下追加一条指向源材料库的链接(不复制全文,避免污染): - [2026-04-12 俞军产品方法论](../../../../04_公司记忆/源材料库/2026-04-12_book_俞军产品方法论/) - 核心启发:用户价值 = 新体验 - 旧体验 - 替换成本 - 权威度:T1(祖师级) 原则: - 源材料库是全公司唯一真相源 - 岗位知识库只保留链接 + 一句话启发 - 修改源材料库 = 全公司同步更新 第 7 步 · 写蒸馏卡 + 索引登记 动作: 1. 写 {ID}/_蒸馏卡.md: ```markdown distill_type: 1 distilled_at: {YYYY-MM-DD} distilled_by: CKO ## 为什么这份值得进源材料库 ## 核心启发(对一人公司) ## 关联已有方法论 {指出这份资料跟已有方法论的关系} - 补充了 X 方法论的 Y 部分 - 挑战了 Z 方法论的 W 假设 ## 后续动作 - [ ] 是否触发某个岗位 SOP 升级(需过铁律 1 闸) - [ ] 是否触发某个模板升级(需过铁律 1 闸) `` 2. 更新04_公司记忆/源材料库/_索引.md`:按 tag / 权威度 / 关联岗位 / 时间多维索引 源材料库目录结构 04_公司记忆/源材料库/ │ ├── _索引.md · 多维索引 │ ├── 2026-04-12_book_俞军产品方法论/ │ ├── 原文.md · 完整原文 │ ├── _元数据.md · frontmatter │ ├── _蒸馏卡.md · 为什么值得进库 │ ├── 01_一句话摘要.md │ ├── 02_金句摘录.md │ ├── 03_方法论提取.md │ ├── 04_可操作清单.md │ └── 05_关联岗位.md │ ├── 2026-04-12_paper_ReAct_prompting/ │ └── ... │ ├── 2026-04-12_podcast_Lenny_on_PM_hiring/ │ └── 原文.md · 带时间戳转录 │ └── 2026-04-12_video_Karpathy_intro_to_LLM/ ├── 原文.md · 带时间戳转录 └── ... 红线 ❌ 不做格式转换直接摘要(必须先有完整原文) ❌ 元数据缺失 / 无溯源 ❌ T7 以下资料进库 ❌ 在五层产出里脑补原文没说的内容 ❌ 金句摘录改写原文 ❌ 把源材料直接复制进岗位知识库(只放链接) ❌ 跳过 reviewer 审查就发布