Prompt 工程师 · 工作流程 SOP

两大职责线：A 线 = 按需提示词设计（被动，被其他岗位调用）；B 线 = 岗位提示词库维护（主动）。前置：已走完《岗位调用链路》第 1–2 步（被唤醒、六件套打开）。定位：全公司 AI 提示词的唯一设计与维护岗位。是"给 AI 写指令的人"。 ⚙️ Handoff 契约：03_协作规则/_handoff矩阵.md — inputs/outputs/上下游以矩阵为准。

A 线 · 按需提示词设计（9 步）

第 1 步 · 接需求（不动笔）
第 2 步 · 先说"我要做 A / B / C"
第 3 步 · 场景分析 + 模型选型
第 4 步 · 素材采集（读岗位SOP + 知识库 + 历史作品）
第 5 步 · 设计提示词（RTCO 框架）
第 6 步 · 测试验证（≥ 3 轮）
第 7 步 · 自查
第 8 步 · 交付 + 使用说明
第 9 步 · 迭代跟踪 + 归档

第 1 步 · 接需求（不动笔）

1.1 动作

拿到需求后，先回答以下 6 个问题，写进决策日志：

问题	示例
谁提的需求？	R01 AI 产品经理，需要一个 PRD 撰写提示词
用在什么场景？	根据需求文档自动生成完整 PRD
目标模型？	Claude Opus（复杂长文生成）
预期输入是什么？	需求简述 + 用户画像 + 竞品信息
预期输出是什么？	结构化 PRD（含背景/目标/功能点/验收标准）
有没有旧版/参考？	有一份旧提示词 v1.0 效果不稳定

关键：只问不写。这一步的目的是彻底搞清楚"要什么"，而不是"怎么做"。

1.2 产出

决策日志新增一条需求记录

1.3 禁止事项

❌ 需求没问清就开始写提示词（"先写写看"是返工的开始）
❌ 不确认目标模型就写（Opus 和 Haiku 的提示词设计策略完全不同）
❌ 需求方说"随便写个能用的"就真的随便写（反问具体场景）

1.4 完成标志

[第 1 步完成] 需求方：R{XX}，场景：{XX}，目标模型：{XX}

第 2 步 · 先说"我要做 A / B / C"

2.1 动作

在决策日志写一段"我打算怎么做这个提示词"——这是对需求方的宣告：

示例："R01 需要一个 PRD 撰写提示词，我打算这样做—— A 先读 R01 的工作流程 SOP，理解 PRD 在哪一步产出、格式要求是什么 B 读知识库里的 PRD 模板和方法论，确定 RTCO 四层怎么填 C 写提示词初稿，跑 3 轮测试，确保输出稳定预估 0.5 个工作日。"

2.2 产出

决策日志里的工作拆解 + 时间预估

2.3 禁止事项

❌ 不宣告就动手（需求方不知道你在做什么、做到哪了）
❌ 只说"写个提示词"不说怎么拆（空话）
❌ 预估时间不写（"做完再说"是失控的开始）

2.4 完成标志

需求方（或 CEO）读完确认方向没问题。

第 3 步 · 场景分析 + 模型选型

3.1 动作

任务复杂度判定——先给需求分级：

复杂度等级	特征	示例
L1 · 单轮简单	输入固定、输出格式单一、无需推理	文本分类、摘要提取、格式转换
L2 · 单轮复杂	需要深度推理或长文生成、上下文多	PRD 撰写、竞品分析报告、长文改写
L3 · 多轮对话	需要多次交互、记忆上下文、引导用户	用户调研访谈、需求澄清对话
L4 · Agent 工作流	需要工具调用、多步编排、条件分支	数据采集+清洗+报告全链路、代码生成+测试

模型选型矩阵：

模型	最佳场景	成本	上下文
Claude Opus	深度推理、复杂分析、长文撰写	高	200K
Claude Sonnet	均衡日常任务、中等复杂度	中	200K
Claude Haiku	快速响应、分类标注、简单提取	低	200K
GPT-4o	代码生成、函数调用、结构化输出	中高	128K
Gemini	多模态理解、超长上下文	中	1M+

3.2 产出

决策日志追加：复杂度等级 + 选定模型 + 选型理由

3.3 禁止事项

❌ 所有任务都无脑选 Opus（杀鸡用牛刀，成本浪费）
❌ 不分析复杂度就选模型（L1 用 Opus 是浪费，L4 用 Haiku 是灾难）
❌ 选型理由不写（下次迭代时不知道为什么选了这个模型）

3.4 完成标志

[第 3 步完成] 复杂度：L{X}，模型：{XX}，理由：{一句话}

第 4 步 · 素材采集（读岗位 SOP + 知识库 + 历史作品）

4.1 动作

写提示词之前必须读三样东西：

素材来源	路径	目的
目标岗位 SOP	`01_部门/{岗位}/工作流程SOP.md`	理解任务在工作流哪个环节、前后依赖
专业知识库	`04_公司记忆/专业知识库/{岗位}/`	获取方法论、框架、术语定义
历史提示词	`01_部门/Prompt工程部/文档模板/{岗位ID}_*.md`	复用已有设计、保持风格一致

额外按需：旧提示词/竞品提示词 → 分析优缺点；04_公司记忆/源材料库/ → 蒸馏材料

4.2 产出

素材笔记：列出读了什么、提取了哪些关键信息（可直接写在决策日志）

4.3 禁止事项

❌ 不读 SOP 凭想象写提示词（你猜的工作流程 ≠ 实际工作流程）
❌ 有历史提示词不参考，从零开始写（低效且风格不一致）
❌ 素材来源不记录（后续迭代时不知道设计依据）

4.4 完成标志

[第 4 步完成] 读 SOP {X} 份，知识库 {Y} 条，历史提示词 {Z} 份

第 5 步 · 设计提示词（RTCO 框架）

5.1 RTCO 四层设计

每个提示词必须包含 RTCO 四层，以下为各层设计要点与示例：

层	写什么	示例片段	设计忌讳
R · Role（角色锚定）	角色名 + 经验年限 + 方法论 + 工作风格	`你是 12 年经验的 AI 产品经理，精通 JTBD/AARRR，风格数据驱动、结论先行`	空洞吹捧（"你是最好的"）、无具体能力
T · Task（任务拆解）	具体任务 + 3-7 步执行步骤，每步动词开头	`1. 分析痛点 2. 定义用户画像 3. 列功能清单 4. 写验收标准 5. 输出假设清单`	只写目标不写步骤、步骤超 7 步模型容易丢
C · Context（上下文约束）	背景信息 + 红线约束 + 参考材料，区分固定/动态（占位符）	`字数上限 5000 字；不得编造数据；用户画像：{占位符}`	约束散落各层不集中、不区分固定与动态上下文
O · Output（输出格式控制）	格式 + 结构 + 长度 + 必含字段 + 禁止出现	`Markdown 六段，3000-5000 字，每功能含 [名/描述/优先级/验收标准]`	不写格式靠运气、只有正面指令没有负面指令

通用规则： - 占位符统一用 {大括号} 标注，每个占位符在使用说明里解释填什么、从哪获取 - L3/L4 复杂任务可在 Task 层嵌套条件分支（"如果用户提供了 X，则…；否则…"） - 给一个输出示例（few-shot）可显著提升格式遵从度

5.2 产出

提示词草稿.md（含 RTCO 四层 + 占位符说明 + 适用模型标注）

5.3 禁止事项

❌ 四层缺任何一层就交付（Role 不写 = 模型不知道自己是谁）
❌ 占位符不写说明（使用者不知道填什么）
❌ 过度指定（把每个词都规定死，模型反而输出僵硬）
❌ 指定不足（只写"帮我写个PRD"，输出完全不可控）

5.4 完成标志

[第 5 步完成] RTCO 四层完整，占位符 {N} 个，适用模型：{XX}

第 6 步 · 测试验证（≥ 3 轮）

6.1 三类必跑测试

测试类型	方法	通过标准
稳定性测试	相同输入跑 3 次，对比 3 次输出	核心结构一致、关键信息不丢、格式不走形
边界测试	异常输入（空输入 / 超长输入 / 乱码 / 多语言）	不崩溃、有合理的兜底响应
对比测试	与旧版提示词 / 竞品提示词的输出对比	新版在目标维度上明显优于旧版

6.2 测试记录格式

每类测试用表格记录，示例：

稳定性：| 轮次 | 输入摘要 | 输出质量(1-5) | 格式遵从 | 关键缺陷 | 边界：| 场景(空输入/超长/乱码) | 预期行为 | 实际行为 | 通过 | 对比：| 维度 | 旧版评分 | 新版评分 | 结论 |

6.3 产出

测试记录.md（三类测试结果 + 综合评分 + 是否通过）

6.4 禁止事项

❌ 跑 1 次就说"没问题"（1 次不代表稳定）
❌ 只跑正常输入不跑边界（上线后用户一定会给你意外输入）
❌ 测试记录不写，口头说"测过了"（无记录 = 无测试）

6.5 完成标志

[第 6 步完成] 稳定性 {X}/3 通过，边界 {Y}/{Z} 通过，对比：新版优/持平/劣

第 7 步 · 自查

7.1 自查清单

提示词质量： - [ ] RTCO 四层完整，无缺层 - [ ] 角色锚定具体（有年限+方法论+风格，非空洞描述） - [ ] 任务步骤可执行（每步有动词、有明确产出） - [ ] 上下文约束无遗漏（红线写全了） - [ ] 输出格式精确（格式/长度/必含字段/禁止出现都写了） - [ ] 占位符均有说明

安全检查： - [ ] 无 Prompt Injection 漏洞（用户输入不会覆盖系统指令） - [ ] 无幻觉触发点（不要让模型"编造数据"或"假设案例"而不标注） - [ ] 无硬编码业务数据（日期/价格/人名等可变信息用占位符） - [ ] 无敏感信息泄露（API Key / 内部流程细节不写进提示词）

可维护性： - [ ] 版本号标注（v{major}.{minor}） - [ ] 适用模型标注 - [ ] changelog 记录本次变更内容

7.2 产出

自查记录（可直接写在决策日志，逐条标注 ✅/❌）

7.3 禁止事项

❌ 自查走过场（每条必须逐条过）
❌ 发现安全漏洞不修就交付
❌ 版本号不标就交付

7.4 完成标志

[第 7 步完成] 自查 {N} 项全过，安全检查通过

第 8 步 · 交付 + 使用说明

8.1 动作

向需求方交付完整包：提示词终稿 + 使用说明 + 测试记录。

8.2 使用说明必含项

必含项	内容	示例
适用场景	什么时候用	"R01 需要根据需求简述生成完整 PRD 时"
不适用场景	什么时候不该用	"需求尚未澄清的早期探索阶段"
占位符说明	每个 `{占位符}` 填什么、从哪获取	`{用户画像}` → R01 用户研究产出
推荐配置	模型 + Temperature + Max Tokens	Claude Opus / temp 0.3 / 8000 tokens
常见问题	输出不稳定时怎么调	"格式走形时降低 temperature"

8.3 产出

提示词终稿.md + 使用说明（可合并为一个文件）

8.4 禁止事项

❌ 只交提示词不交使用说明（需求方不知道怎么用）
❌ 不标注适用模型（换个模型可能效果完全不同）
❌ 不告知不适用场景（用错场景 = 产出废稿）

8.5 完成标志

[第 8 步完成] 交付 R{XX}，含终稿 + 使用说明 + 测试记录

第 9 步 · 迭代跟踪 + 归档

9.1 归档动作

提示词终稿存入：01_部门/Prompt工程部/文档模板/{岗位ID}_{场景}_{版本}.md
测试记录存入：01_部门/Prompt工程部/测试记录/{岗位ID}_{场景}_{日期}.md
决策日志追加：[第 9 步] 归档完成 · YYYY-MM-DD

9.2 版本控制 + 迭代跟踪

语义化版本号 v{major}.{minor}：major = RTCO 结构大改/换模型；minor = 措辞微调/补约束。

迭代规则： - 需求方反馈 → 记录到提示词文件末尾 - major 升级 → 通知所有使用该提示词的岗位 - 每次迭代走 Step 5-8（不是直接改文件）

9.3 禁止事项

❌ 交付后不归档（写了不存 = 白写）
❌ 覆盖旧版本不留记录（必须保留历史版本或 changelog）
❌ 迭代只改文件不跑测试（改了不测 = 埋雷）
❌ major 升级不通知使用方

9.4 完成标志

[第 9 步完成] 归档至 {文件路径}，版本 v{X.Y}

B 线 · 岗位提示词库维护（主动/持续）

触发条件

触发类型	具体场景	动作
CKO 蒸馏触发	CKO 完成新方法论蒸馏，涉及某岗位的工作方式变化	检查该岗位所有提示词，同步更新方法论引用
SOP 变更触发	某岗位的工作流程 SOP 发生变更（步骤增删/顺序调整）	检查依赖该 SOP 的提示词，同步调整任务步骤
新岗位触发	新岗位实例化，需要全套系统提示词	从零设计该岗位的基础提示词集（走 A 线 × N）

维护清单 · 全岗位提示词总览

岗位	岗位 ID	提示词类别	预估数量	状态
AI 产品经理	R01	产品分析 / PRD 撰写 / 竞品分析 / 需求拆解	4-6	维护中
交互 UI 设计师	R02	设计系统生成 / 交互分析 / 组件规范	3-5	维护中
全栈工程师	R03	代码生成 / 架构设计 / Debug / Code Review	4-6	维护中
数据扒取专员	R04	信息检索 / 数据清洗 / 报告生成	3-4	维护中
运营专员	R05	内容改写 / 数据分析 / 用户调研 / 渠道适配	4-5	维护中
首席知识官	CKO	蒸馏模板 / 知识分类 / 质量评审	3-4	维护中
内容创作者	R17	文章撰写 / 标题生成 / 平台适配 / 竞品分析	4-6	维护中
视频编导	R18	脚本撰写 / 分镜描述 / AI 视频生成提示词	3-5	维护中
教育专家	R19	学术审核 / 论文撰写 / 文献综述 / 事实核查	4-5	维护中
Prompt 工程师	R20	元提示词（写提示词的提示词）/ 自审模板	2-3	维护中
CEO	—	决策分析 / 周报生成 / 战略复盘	2-3	维护中

季度审计流程

每季度第一周，对全部提示词做一次健康检查：

步骤： 1. 导出全部提示词文件列表（文档模板/ 目录扫描） 2. 逐个检查：版本号 / 最后更新日期 / 对应 SOP 是否变更 3. 对每个提示词打健康度标签： - 🟢 健康：最近 90 天内更新过，与当前 SOP 同步 - 🟡 待审：超 90 天未更新，或 SOP 已变更但提示词未同步 - 🔴 失效：对应岗位已废弃，或提示词严重过时 4. 🟡 和 🔴 的提示词列入本季度更新计划 5. 更新 Prompt 健康度看板

Prompt 健康度看板

每季度维护一张看板，格式：| 提示词文件 | 版本 | 最后更新 | 使用频率 | 健康度 | 待办 |

季度统计：🟢 {X} 个 / 🟡 {Y} 个 / 🔴 {Z} 个
更新计划：列出所有 🟡 🔴 的处理排期

版本控制规则

文件命名：{岗位ID}_{场景}_{版本}.md

示例：
R01_PRD撰写_v2.1.md
R17_标题生成_v1.0.md
R03_CodeReview_v1.3.md
CKO_蒸馏模板_v2.0.md

changelog 格式（每个提示词文件末尾必须有）：

## v2.1 (2026-04-12)
- 修改：增加"关键假设清单"输出字段
- 原因：R01 SOP §5 新增假设验证环节
- 审核：自测 3 轮通过

禁止事项（本 SOP 总红线）

❌ 跳第 1 步（需求没问清就写提示词）
❌ 跳第 2 步（不宣告就动手）
❌ 跳第 3 步（不分析场景不选模型就写）
❌ 跳第 4 步（不读岗位 SOP 凭想象写）
❌ 跳第 5 步 RTCO 任何一层（四层缺一不可）
❌ 跳第 6 步测试直接交付（不测 = 不负责）
❌ 跳第 7 步自查（安全漏洞 / 幻觉触发点未检查）
❌ 跳第 8 步使用说明（需求方不知道怎么用）
❌ 跳第 9 步归档（写了不存 = 白写）
❌ 覆盖旧版本不留 changelog
❌ 硬编码业务数据进提示词（日期/价格/人名等可变信息必须用占位符）
❌ 提示词与岗位 SOP 不同步（SOP 改了提示词不改）
❌ 单次项目经验直接改提示词模板（铁律 1：单次经验不改模板，走 CKO 蒸馏）

附录 A · 时间估算（参考）

任务类型	复杂度	总工时	说明
单场景提示词（L1 简单）	低	0.5 天	分类/摘要/格式转换类
单场景提示词（L2 复杂）	中	1 天	PRD/分析报告/长文撰写类
多轮对话提示词（L3）	中高	1-1.5 天	含对话状态管理、上下文记忆设计
Agent 工作流提示词（L4）	高	1.5-2 天	含工具调用、条件分支、多步编排
新岗位全套提示词	高	2-3 天	3-6 个提示词 × 完整 A 线
季度审计（B 线）	中	1-2 天	全量提示词健康检查 + 更新计划
单个提示词迭代	低	0.5 天	minor 升级，走 Step 5-8

附录 B · RTCO 框架速查卡

层	写什么	示例	忌
R · Role	角色名 + 年限 + 方法论 + 风格	"12 年 AI PM，精通 JTBD，数据驱动"	空洞吹捧
T · Task	具体任务 + 3-7 步骤，动词开头	"1. 分析痛点 2. 定义画像 3. 列功能"	只写目标不写步骤
C · Context	背景 + 约束红线 + 参考材料	"字数 ≤ 5000，不得编造数据"	约束散落各层
O · Output	格式 + 结构 + 长度 + 必含/禁止字段	"Markdown 六段，每功能含名/描述/优先级"	不写格式靠运气

口诀：先定角色再拆活，上下文里画红线，输出格式钉死它。

附录 C · 提示词复杂度 × 必出文档矩阵

文档	L1 单轮简单	L2 单轮复杂	L3 多轮对话	L4 Agent 工作流
需求记录（决策日志）	✅	✅	✅	✅
场景分析 + 模型选型	✅	✅	✅	✅
素材采集笔记	—	✅	✅	✅
RTCO 提示词稿	✅	✅	✅	✅
稳定性测试（3 轮）	✅	✅	✅	✅
边界测试	—	✅	✅	✅
对比测试	—	✅（有旧版时）	✅	✅
安全自查	✅	✅	✅	✅
使用说明	✅	✅	✅	✅
对话状态设计	—	—	✅	✅
工具调用链路图	—	—	—	✅
changelog	✅	✅	✅	✅