来源索引 · 这份索引是数据扒取部的"地图"——记录去哪里扒、扒之前要怎么判断可信度、扒之后要挂什么标签。所有对外交付的情报必须引用本索引中的来源 ID,不允许裸链接。 一、T1-T7 来源分级 + 判定公式 每个 Tier 有硬标准,不靠感觉。判定时逐条勾选,达不到下探一档。 Tier 类别 判定公式(必须全部满足) 典型示例 T1 学术顶刊/顶会 ① 经同行评审 ② JCR Q1 或 CORE A/A* 或同等 ③ 有 DOI ④ 作者机构可查 Nature / Science / NeurIPS / ACL / CVPR T2 权威行业媒体 ① 有主编 + 编辑部 ② 发行 ≥5 年 ③ 引用该源的 T1 论文 ≥10 篇 ④ 有事实核查声明 MIT Tech Review / The Economist / Wired T3 标准/法规/白皮书 ① 发布主体是政府/国际组织/标准委员会 ② 公开可查原文 ③ 有版本号和发布日期 GB/T / ISO / NIST / EU AI Act 官方文本 T4 大学/研究机构 ① 机构在 QS 前 200 或同等 ② 作者可查 PhD/Faculty 身份 ③ 发布于机构官网或官方预印本平台 清华 KEG / Stanford HAI / MIT CSAIL T5 科技巨头官方 ① 官方域名 ② 有作者署名或团队署名 ③ 非营销稿(区别于 PR 发布) OpenAI Blog / Google Research / Meta AI T6 咨询/分析报告 ① 咨询公司有 ≥10 年历史 ② 报告标注方法论 ③ 样本量和时间窗口可查 McKinsey / Gartner / CB Insights / IDC T7 培训/自媒体/社区 ① 作者身份可验证 ② 有明显倾向性或商业利益 ③ 需交叉验证才能使用 公众号 / Substack / 知乎 / X 推文 1.1 降档规则(必读) 预印本(arXiv/bioRxiv)没过同行评审 → 最高 T4,不算 T1 T5 的"产品发布"稿 → 算 T7(营销性质),只有 research / technical / security 才算 T5 T6 报告里无公开方法论 → 降到 T7 匿名作者 / 无机构背书 → 最高 T7 有明确商业利益冲突(如厂商自评)→ 再降一档 1.2 冲突裁决 两源结论冲突时,按以下顺序定胜负: 1. 高 Tier 胜低 Tier(T1 胜 T7) 2. 同 Tier 时,更近日期胜(3 个月内) 3. 同 Tier 同期时,多源一致的一方胜 4. 仍无法裁决 → 标记"悬而未决",送 CEO 复议 二、Admiralty Code · 置信度矩阵 OSINT 行业标准(NATO 通用)。每条情报必须同时打两个字母数字标签:来源可靠性(A-F)× 信息置信度(1-6)。 2.1 来源可靠性(Source Reliability) 代码 含义 用于 A 完全可靠 官方文件、标准法规、同行评审论文 B 通常可靠 权威媒体、大厂官方、知名咨询公司 C 中等可靠 有一定背书但有立场的来源 D 不太可靠 匿名来源、未经核实的社媒爆料 E 不可靠 已被证实多次错误的来源 F 无法评估 第一次见到的新来源 2.2 信息置信度(Information Credibility) 代码 含义 判定标准 1 已确认 ≥3 个独立 A/B 级来源交叉验证 2 很可能真实 2 个 A/B 级来源一致 3 可能真实 1 个 A/B 级来源 + 逻辑自洽 4 真实性存疑 仅单源 + 未经交叉验证 5 不太可能真实 与已有高 Tier 信息冲突 6 无法评估 信息过于新,无参照 2.3 T1-T7 ↔ Admiralty 对照参考 Tier 典型 Admiralty 场景 T1 A1 ~ A2 同行评审 + 多源引用 T2 A2 ~ B2 权威媒体单源报道 T3 A1 官方原文 T4 A2 ~ B2 大学研究 / 预印本 T5 B2 ~ B3 大厂官方(有立场) T6 B2 ~ C3 咨询报告(方法论决定) T7 C3 ~ E5 自媒体 / 社区 / 匿名 硬规则: - 对外交付的"事实陈述",最低 B2 - "趋势判断 / 观点引用",最低 C3 - D/E/F 级来源只能做线索,不能做结论 三、来源登记表 ID 来源名称 URL Tier Admiralty 访问方式 合规标签 上次使用 失效? 备注 S001 T_ _ _ A(公开) / B(登录) / C(付费) 🟢可公开爬 / 🟡需留同意 / 🔴禁爬 ⬜ S002 T_ _ _ A / B / C 🟢 / 🟡 / 🔴 ⬜ S003 T_ _ _ A / B / C 🟢 / 🟡 / 🔴 ⬜ 3.1 访问方式说明 A 级(公开):无需登录,直接 GET 可访问 B 级(登录):需账号登录才能看 → 扒之前先查用户协议,禁止爬则降到 C C 级(付费):需付费订阅 → 个人订阅不能用于商业扒取 3.2 合规标签说明 🟢 可公开爬:公开网页 + robots.txt 允许 + 无用户协议禁止 🟡 需留同意痕迹:登录后内容 / 有 API key 授权 / 付费订阅内的数据 🔴 禁爬:robots.txt 禁止 / 用户协议明令禁止 / 涉及 PII / 境外敏感站点 红线:标 🔴 的来源绝对不进本索引。详见 专业知识库/OSINT_红线清单.md。 四、订阅清单 4.1 RSS 订阅 # 名称 来源 ID RSS URL 更新频率 关注重点 1 S___ 日/周/月 2 S___ 4.2 邮件订阅 # 名称 来源 ID 订阅邮箱 频率 状态 1 S___ 日刊 / 周刊 活跃 / 已退订 4.3 API 接入 # 服务名 来源 ID API 文档 Key 存放位置 免费配额 合规核验 1 S___ .env 密钥名 ✅ 已读 ToS 五、失效来源台账 失效后不删除,保留历史记录。每月由 R07 CKO 月结时复盘。 ID 来源名称 原 URL 失效日期 失效原因 替代来源 ID 复评日期 S___ 404 / 付费墙 / 关停 / 政策 S___ 5.1 失效检测 SOP(每周一 R04 自检) 遍历所有 S 开头来源,HEAD 请求检查 返回 ≥400 → 标"疑似失效",人工复核 确认失效 → 移到本节,在登记表标"失效? ✅" 3 个月内无可用替代 → 送 R07 CKO 评估是否从相关 SOP 中移除引用 六、本索引维护规则 新增来源 → 先走 专业知识库/OSINT_红线清单.md 6 项自检,通过才能登记 降档 / 升档 → 在 changelog 留痕,不删除历史 合规标签变化 → 立即更新,触发 R11 法务复核 模板本身修改 → 走 CKO 四型路径 C(过程增量蒸馏)